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1. awk 简介 

awk 是 一 种 编程 语言 ， 用 于 在 linux/unix 下 对 文本 和 数据 进行 处 理 。 数 据 可 以 来 自 标 准 输入 、 
一 个 或 多 个 文件 ， 或 其 它 命 令 的 输出 。 它 支持 用 户 自 定义 函数 和 动态 正则 表达 式 等 先进 功 

能 ， 是 linux/unix 下 的 一 个 强大 编程 工具 。 它 在 命令 行 中 使 用 ， 但 更 多 是 作为 脚本 来 使 用 。 
awk 的 处 理 文本 和 数据 的 方式 是 这 样 的 ， 它 乏 行 扫描 文件 ， 从 第 一 行 到 最 后 一 行 ， 寻 找 匹 配 的 
特定 模式 的 行 ， 并 在 这 些 行 上 进行 你 想 要 的 操作 。 如 果 没 有 指定 处 理 动作 ， 则 把 匹配 的 行 显 
示 到 标准 输出 (屏幕 )， 如 果 没 有 指定 模式 ， 则 所 有 被 操作 所 指定 的 行 都 被 处 理 。awk 分 别 代表 
其 作者 姓氏 的 第 一 个 字母 。 因 为 它 的 作者 是 三 个 人 ， 分 别 是 Alfred Aho、Brian Kernighan、 
Peter Weinberger。gawk 是 awk 的 GNU 版 本 ， 它 提供 了 Bell 实 验 室 和 GNU 的 一 些 扩展 。 下 面 
介绍 的 awk 是 以 GUN 的 gawk 为 例 的 ， 在 linux 系 统 中 已 把 awk 链接 到 gawk， 所 以 下 面 全 部 以 
awk 进行 介绍 。 


2. awk 命令 格式 和 选项 


2.1. awk 的 语法 有 两 种 形式 


@ awk [options] 'script' var=value file(s) 


® awk [options] -f scriptfile var=value file(s) 
2.2. 介 令 选项 
-F fs or --field-separator fs 
指定 输入 文件 折 分 隔 符 ，fs 是 一 个 字符 串 或 者 是 一 个 正则 表达 式 ， 如 -F:。 
-V Var=value or --asign var=value 
赋值 一 个 用 户 定义 变量 。 
-f scripfile or --file scriptfile 


从 脚本 文件 中 读 取 awk 命 令 。 


-mf nnn and -mr nnn 


对 nnn 值 设置 内 在 限制 ，-mf 选 项 限制 分 配给 nnn 的 最 大 块 数目 ; -mr 选项 限制 记录 的 最 大 数 
目 。 这 两 个 功能 是 Bell 实 验 室 版 awk 的 扩展 功能 ， 在 标准 awk 中 不 适用 。 


-W compact or --compat, -Ww traditional or --traditional 

在 兼容 模式 下 运行 awk。 所 以 gawk 的 行为 和 标准 的 awk 完全 一 样 ， 所 有 的 awk 扩展 都 被 忽略 。 
-W copyleft or --copyleft, -W copyright or --copyright 

打印 简短 的 版 权 信息 。 
-W help or --help, -W usage or --usage 


打印 全 部 awk 选项 和 每 个 选项 的 简短 说 明 。 


-W lint or --lint 


打印 不 能 向 传统 unix 平 台 移 植 的 结构 的 警告 。 


-W lint-old or --lint-old 
打印 关于 不 能 向 传统 unix 平 台 移 植 的 结构 的 警告 。 
-W posix 


打开 兼容 模式 。 但 有 以 下 限制 ， 不 识别 : \X、 遂 数 关键 字 、func、 换 码 序 列 以 及 当 fs 是 一 个 空 
格 时 ， 将 新 行 作为 一 个 域 分 隔 符 ; 操作 符 和 = 不 能 代替 ^ 和 ^= ; fflush 无 效 。 


-W re-interval or --re-inerval 


允许 间隔 正则 表达 式 的 使 用 ， 参 考 (grep 中 的 Posix 字 符 类 )， 如 括号 表达 式 [[:alpha:]]。 
-W source program-text or --source program-text 
使 用 program-text 作 为 源 代码 ， 可 与 -命令 混用 。 


-W version or --version 


打印 bug 报 告 信息 的 版 本 。 


3. 模式 和 操作 


awk 脚本 是 由 模式 和 操作 组 成 的 : 
pattern {action} 如 $awk '/root/' test ， 或 $ awk '$3 &lt; 100' test ° 


两 者 是 可 选 的 ， 如 果 没 有 模式 ， 则 action 应 用 到 全 部 记录 ， 如 果 没 有 action， 则 输出 匹配 全 部 
记录 。 默 认 情 况 下 ， 每 一 个 输入 行 都 是 一 条 记录 ， 但 用 户 可 通过 RS 变量 指定 不 同 的 分 隔 符 进 


3.1. 模式 
模式 可 以 是 以 下 任意 一 个 : 
e /正则 表达 式 / : 使 用 通配符 的 扩展 集 。 


e 关系 表达 式 : 可 以 用 下 面 运 算 符 表 中 的 关系 运算 符 进 行 操 作 ， 可 以 是 字符 串 或 数字 的 比 
较 ， 如 $2>%1 选 择 第 二 个 字段 比 第 一 个 字段 长 的 行 。 


。 模式 匹配 表达 式 : 用 运算 符 ~( 匹 配 ) 和 ~!( 不 匹配 )。 
。 模式 ， 模 式 : 指定 一 个 行 的 范围 。 该 语法 不 能 包括 BEGIN 和 END 模 式 。 


。 BEGIN : 让 用 户 指定 在 第 一 条 输入 记录 被 处 理 之 前 所 发 生 的 动作 ， 通 常 可 在 这 里 设置 全 


局 变量 。 


e。 END : 让 用 户 在 最 后 一 条 输入 记录 被 读 取 之 后 发 生 的 动作 。 


3.2. 操作 


操作 由 一 人 或 多 个 命令 、 遂 数 、 表 达 式 组 成 ， 之 间 由 换行 符 或 分 号 隔 开 ， 并 位 于 大 括号 内 。 
主要 有 四 部 份 : 


。 变量 或 数组 赋值 


。 输出 命令 


~ 


4. awk 的 环境 变量 


Table 1. awk 的 环境 变量 


bo 
hd 


$n 

$0 

ARGC 
ARGIND 
ARGV 
CONVFMT 
ENVIRON 
ERRNO 
FIELDWIDTHS 
FILENAME 
FNR 

FS 
IGNORECASE 
NF 

NR 

OFMT 
OFS 

ORS 
RLENGTH 
RS 
RSTART 
SUBSEP 


茵 述 
当前 记录 的 第 n 个 字段 ， 字 段 间 由 FS 分 隔 。 
完整 的 输入 记录 。 
全 


命令 行 参数 的 数目 。 


命令 行 中 当前 文件 的 位 置 (从 0 开始 算 ) 。 
包含 命令 行 参数 的 数组 。 


数字 转换 格式 (默认 值 为 %.6g) 


环境 变量 关联 数组 。 


最 后 一 个 系统 错误 的 描述 。 
字段 宽度 列表 (用 空格 键 分 隔 ) 。 
当前 文件 名 。 


同 NR， 但 相对 于 当前 文件 。 

字段 分 隔 符 (默认 是 任何 空格 )。 

如 果 为 夏 ， 则 进行 忽略 大 小 写 的 匹配 。 
当前 记录 中 的 字段 数 。 

当前 记录 数 。 

数字 的 输出 格式 (默认 值 是 %.6g) 。 
输出 字段 分 隔 符 (默认 值 是 一 个 空格 ) 。 
输出 记录 分 陋 符 (默认 什 是 一 个 换行 符 ) 。 
由 match 部 数 所 匹配 的 字符 串 的 长 度 。 


记录 分 隔 符 (默认 是 一 个 换行 符 ) 。 


由 match 疯 数 所 匹配 的 字符 串 的 第 一 个 位 置 。 


数组 下 标 分 隔 符 (默认 值 是 \034)。 


运 莫 符 描述 

=+= -= = 人/ %= ^ 人 = = 赋值 
C 条 件 表 达 式 

| 逻辑 或 
&& 逻辑 与 
本 匹配 正则 表达 式 和 不 匹配 正则 表达 式 
EE 关系 运算 符 
空格 连接 
jp 加 ， 减 
*/& 乘 ， 除 与 求 余 
| 一 元 加 ， 减 和 逻辑 非 
八 ** 炎 求 暴 
++ -- 增加 或 减少 ， 作 为 前 缓 或 后 组 
$ 字段 引用 
in 数组 成 员 


6. 记录 和 域 


6.1. 记录 

awk 把 每 一 个 以 换行 符 结束 的 行 称 为 一 个 记录 。 

记录 分 隔 符 : 默认 的 输入 和 输出 的 分 隔 符 都 是 回 车 ， 保 存在 内 建交 量 ORS 和 RS 中 。 

$0 变 量 : 它 指 的 是 整 条 记录 。 如 $ awk '{print $6}' test 将 输出 test 文 件 中 的 所 有 记录 。 
变量 NR : 一 个 计数 器 ， 每 处 理 完 一 条 记录 ，NR 的 值 就 增加 1。 如 $ awk '{print NR,$0} test 将 
输出 test 文 件 中 所 有 记录 ， 并 在 记录 前 显示 记录 号 。 

6.2. 域 


记录 中 每 个 单词 称 做 “ 域 "， 默认 情况 下 以 空格 或 tab 分 隔 。awk 可 跟踪 域 的 个 数 ， 并 在 内 建 妆 量 
NF 中 保存 该 值 。 如 $ awk '{fprint $1,$3}' test 将 打印 test 文 件 中 第 一 和 第 三 个 以 空格 分 开 的 
列 ( 域 ) o 


6.3. 域 分 隔 符 


内 建 变 量 FS 保 存 输入 域 分 隔 符 的 值 ， 软 认 是 空格 或 tab。 我 们 可 以 通过 -F 命 令 行 选项 修改 FS 的 
值 。 如 $ awk -F: '{fprint $1,$5}' test 将 打印 以 冒号 为 分 隔 符 的 第 一 ， 第 五 列 的 内 容 。 

可 以 同时 使 用 多 个 域 分 隔 符 ， 这 时 应 该 把 分 隔 符 写成 放 到 方 括号 中 ， 

如 $awk -F'[:\t]' '{fprint $1,$3}' test ， 表示 以 空格 、 冒 号 和 tab 作 为 分 隔 符 。 


输出 域 的 分 隔 符 默认 是 一 个 空格 ， 保 存在 OFS 中 。 如 $ awk -F: '{print $1,$5}' test ， $1 和 
$5 间 的 运 号 就 是 OFS 的 值 。 


7. gawk 专 用 正则 表达 式 元 字符 


一 般 通 用 的 元 字符 集 就 不 讲 了 ， 可 参考 我 的 Sed 和 Grep 学 习 笔记 。 以 下 几 个 是 gawk 专 用 的 ， 


不 适合 unix 版 本 的 awk 。 
\Y 匹配 一 个 单词 开头 或 者 末尾 的 空 字符 串 。 
NB 匹配 单词 内 的 空 字符 串 。 
\< 匹配 一 个 单词 的 开头 的 空 字 符 串 ， 锚 定 开始 。 
\> 匹配 一 个 单词 的 末尾 的 空 字 符 串 ， 锚 定 末 尾 。 
Nw 匹配 一 个 字母 数字 组 成 的 单词 。 
\W 匹配 一 个 非 字 母 数 字 组 成 的 单词 。 
\“′ 匹配 字符 串 开 头 的 一 个 空 字 符 串 。 
N\': 匹配 字符 串 末 尾 的 一 个 空 字符 串 。 


8. POSIX 字 符 集 


可 参考 我 的 Grep 学 习 笔记 


9. 匹配 操作 符 (~) 


用 来 在 记录 或 者 域内 匹配 正则 表达 式 。 如 $ awk '$1 -/Aroot/' test 将 显示 test 文 件 第 一 列 中 
以 root 开 头 的 行 。 


10. 比较 表达 式 


conditional expression1 expression2: expression3 ， 例 
如 : $ awk '{max = {$1 &gt; $3} $1: $3: print max}' test 。 如 果 第 一 个 域 大 于 第 三 个 域 ， $1 
就 赋值 给 max， 否 则 $3 就 赋值 给 max。 


$ awk '$1 + $2 &lt; 100' test °。 如 果 第 一 和 第 二 个 域 相 加 大 于 100， 则 打印 这 些 行 。 


$ awk '$1 &gt; 5 && $2 &lt; 10' test ,如 果 第 一 个 域 大 于 5， 并 且 第 二 个 域 小 于 10， 则 打印 
这 些 行 。 


11. 范围 模板 


范围 模板 匹配 从 第 一 个 模板 的 第 一 次 出 现 到 第 二 个 模板 的 第 一 次 出 现 之 间 所 有 行 。 如 果 有 一 
个 模板 没 出 现 ， 则 匹配 到 开头 或 末尾 。 如 $ awk '/root/,/mysql/' test 将 显示 root 第 一 次 出 现 
到 mysql 第 一 次 出 现 之 间 的 所 有 行 。 


12. 一 个 验证 passwd 文 件 有 效 性 的 例子 


$ cat /etc/passwd | awk -F: '\ 

NF != 7{\ 

printf("line %d,does not have 7 fields:%s\n",NR,$0)}\ 

$1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and numeric user id:%d: %s\n,NR,$0)}\ 
$2 == "*" {printf("line %d, no password: %s\n",NR,$0)}! 


cat 把 结果 输出 给 awk，awk 把 域 之 间 的 分 隔 符 设 为 冒号 。 
如 果 域 的 数量 (NF) 不 等 于 7， 就 执行 下 面 的 程序 。 
printf 打 印字 符 串 "line does not have 7 fields"， 并 显示 该 条 记录 。 


如 果 第 一 个 域 没 有 包含 任何 字母 和 数字 ，printf 打 印 “no alpha and numeric user id" 
， 并 显示 记录 数 和 记录 。 


如 果 第 二 个 域 是 一 个 星 号 ， 就 打印 字符 串 “no passwd”， 紧 跟着 显示 记录 数 和 记录 本 


oo 


13. 几 个 实例 


e@ $ awk '/A(no|so)/' test ----- 打印 所 有 以 模式 no 或 so 开头 的 行 。 
© $ awk '/A[ns]/{fprint $1}' test ----- 如 果 记 录 以 n 或 s 开 头 ， 就 打印 这 个 记录 。 


® $ awk '$1 ~/[0-9][0-9]$/(print $1}' test ----- 如 果 第 一 个 域 以 两 个 数字 结束 就 打印 这 个 
记录 “。 


® $ awk '$1 == 100 || $2 &lt; 50' test ----- 如 果 第 一 个 或 等 于 100 或 者 第 二 个 域 小 于 50 ， 
则 打印 该 行 。 


© $awk '$1 != 10' test ----- 如 果 第 一 个 域 不 等 于 10 就 打印 该 行 。 


© $ awk '/test/{print $1 + 10}' test ----- 如 果 记 录 包 含 正 则 表达 式 test， 则 第 一 个 域 加 10 
并 打印 出 来 。 


© $ awk '{print ($1 &gt; 5 "ok "$1: "error"$1)}' test ----- 如 果 第 一 个 域 大 于 5 则 打印 问 
号 后 面 的 表达 式 值 ， 否 则 打印 冒号 后 面 的 表达 式 值 。 


e $ awk '/Aroot/,/Amysq1/' test ---- 打 印 以 正则 表达 式 root 开 头 的 记录 到 以 正则 表达 式 
mysql 开 头 的 记录 范围 内 的 所 有 记录 。 如 果 找 到 一 个 新 的 正则 表达 式 root 开 头 的 记录 ， 则 
继续 打印 直到 下 一 个 以 正则 表达 式 mysql 开 头 的 记录 为 止 ， 或 到 文件 末尾 。 


14. awk 编程 


14.1. 变量 
。 在 awk 中 ， 变 量 不 需要 定义 就 可 以 直接 使 用 ， 变 量 类 型 可 以 是 数字 或 字符 串 。 


e 赋值 格式 : Variable = expression ， 
如 $ awk '$1 ~/test/{count = $2 + $3; print count} test ,上 式 的 作用 是 ,awk 先 扫描 第 
一 个 域 ， 一 旦 test 匹 配 ， 就 把 第 二 个 域 的 值 加 上 第 三 个 域 的 值 ， 并 把 结果 赋值 给 变量 


count， 最 后 打印 出 来 。 


。 awk 可 以 在 命令 行 中 给 变量 赋值 ， 然 后 将 这 个 变量 传输 给 awk 脚本 。 
如 $ awk -F: -f awkscript month=4 year=2004 test ， 上 式 的 month 和 year 都 是 自 定义 变 
量 ， 分 别 被 赋值 为 4 和 2004。 在 awk 脚本 中 ， 这 些 变量 使 用 起 来 就 象 是 在 脚本 中 建立 的 一 
样 。 注 意 ， 如 果 参 数 前 面 出 现 test， 那 么 在 BEGIN 语 多 中 的 变量 就 不 能 被 使 用 。 


。 域 变 量 也 可 被 赋值 和 修改 ， 如 $ awk '{$2 = 100 + $1; print }' test ,上 式 表示 ， 如 果 第 
二 个 域 不 存在 ，awk 将 计算 表达 式 100 加 $1 的 值 ， 并 将 其 赋值 给 $2， 如 果 第 二 个 域 存在 ， 
则 用 表达 式 的 值 履 盖 $2 原 来 的 值 。 再 例 
如 : $ awk '$1 == "root"{$1 ="test";print}' test ， 如 果 第 一 个 域 的 值 是 “root*， 则 把 它 
赋值 为 "test*， 注 意 ， 字 符 串 一 定 要 用 双 引 号 。 


e 内 建 变量 的 使 用 。 变 量 列表 在 前 面 已 列 出 ， 现 在 举 个 例子 说 明 一 
下 。 $ awk -F: ' {IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test ， 把 
IGNORECASE 设 为 1 代表 忽略 大 小 写 ， 打 印 第 一 个 域 是 mary 的 记录 数 、 第 一 个 域 、 第 二 
个 域 和 最 后 一 个 域 。 


14.2. BEGIN 模 块 


BEGIN 模 块 后 紧 跟 着 动作 块 ， 这 个 动作 块 在 awk 处 理 任何 输入 文件 之 前 执行 。 所 以 它 可 以 在 没 
有 任何 输入 的 情况 下 进行 测试 。 它 通常 用 来 改变 内 建 变 量 的 值 ， 如 OFS,RS 和 FS 等 ， 以 及 打 
印 标题 。 如 : $ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test 。 上 式 表 

示 ， 在 处 理 输入 文件 以 前 ， 域 分 隔 符 (FS) 被 设 为 冒号 ， 输 出 文件 分 隔 符 (OFS) 被 设置 为 制 表 
符 ， 输 出 记录 分 隔 符 (ORS) 被 设置 为 两 个 换行 符 。 $ awk 'BEGIN{print "TITLE TEST"} 只 打印 
标题 。 


14.3. END 模 块 


END 不 匹配 任何 的 输入 文件 ， 但 是 执行 动作 块 中 的 所 有 动作 ， 它 在 整个 输入 文件 处 理 完 成 后 
被 执行 。 如 $ awk 'END{print "The number of records is" NR}' test ， 上 式 将 打印 所 有 被 处 理 
的 记录 数 。 


14.4. 重 定向 和 管道 


。 awk 可 使 用 shell 的 重 定向 符 进 行 重 定向 输出 ， 
如 : $ awk '$1 = 100 {print $1 &gt; "output file" }' test ° 上 式 表示 如 果 第 一 个 域 的 
值 等 于 100， 则 把 它 输出 到 output_ file 中。 也 可 以 用 >> 来 重 定向 输出 ， 但 不 清空 文件 ， 只 
做 追加 操作 。 


。 输出 重 定 向 需 用 到 getline 函 数 。getline 从 标准 输入 、 管 道 或 者 当前 正在 处 理 的 文件 之 外 的 
其 他 输入 文件 获得 输入 。 它 负责 从 输入 获得 下 一 行 的 内 容 ， 并 给 NF,NR 和 FNR 等 内 建 变 
量 赋值 。 如 果 得 到 一 条 记录 ，getline 函 数 返 回 1， 如 果 到 达 文 件 的 末尾 就 返回 0， 如 果 出 
现 错误 ， 例 如 打开 文件 失败 ， 就 返回 -1。 如 : 


和 


$ awk 'BEGIN{ "date" | getline d; print d}' test 。 执 行 linux 的 date 命 令 ， 并 通过 管道 


输出 给 getline ， 然 后 再 把 输出 赋值 给 自 定义 变量 d， 并 打印 它 。 


$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test 。 执 行 shell 的 date 
命令 ， 并 通过 管道 输出 给 getline， 然 后 getline 从 管道 中 读 取 并 将 输入 赋值 给 d，split 函 数 
把 变量 d 转 化 成 数组 mon， 然 后 打印 数组 mon 的 第 二 个 元 素 。 


$ awk 'BEGIN{while( "1s" | getline) print}' ， 命 令 IS 的 输出 传递 给 geline 作 为 输入 ， 循 
环 使 getline 从 ls 的 输出 中 读 取 一 行 ， 并 把 它 打 印 到 屏幕 。 这 里 没有 输入 文件 ， 因 为 BEGIN 
块 在 打开 输入 文件 前 执行 ， 所 以 可 以 忽略 输入 文件 。 


$ awk 'BEGIN{printf "What is your name "; getline name &lt; "/dev/tty" } $1 ~name {pri 
。 在 屏幕 上 打印 ”What is your name ", 并 等 待 用 户 应 答 。 当 一 行 输入 完毕 后 ，getline 元 数 
从 终端 接收 该 行 输入 ， 并 把 它 储存 在 自 定义 变量 name 中 。 如 果 第 一 个 域 匹 配 变量 name 
的 值 ，print 喜 数 就 被 执行 ，END 块 打印 See you 和 name 的 值 。 


$ awk 'BEGIN{while (getline &]lt; "/etc/passwd" &gt; 0) lc++; print lc}' ° awk 将 和 逐 行 
读 取 文 件 /etc/passwd 的 内 容 ， 在 到 达 文 件 末尾 前 ， 计 数 器 lc 一 直 增 加 ， 当 到 末尾 时 ， 打 

印 Ilc 的 值 。 注 意 ， 如 果 文 件 不 存在 ，getline 返 回 -1， 如 果 到 达 文 件 的 末尾 就 返回 0， 如 果 

读 到 一 行 ， 就 返回 1， 所 以 命令 while (getline < "/etc/passwd") 在 文件 不 存在 的 情况 下 
将 陷入 无 限 循环 ， 因 为 返回 -1 表示 逻辑 站 。 


。 可 以 在 awk 中 打开 一 个 管道 ， 且 同一 时 刻 只 能 有 一 个 管道 存在 。 通 过 close() 可 关闭 管道 。 
如 : $ awk '{print $1，$2 | "sort" }' test END {close("sort")} 。awd 把 print 语 名 的 输 
出 通过 管道 作为 linux 命 令 sort 的 输入 ,END 块 执行 关闭 管道 操作 。 


e。 System 有 函数 可 以 在 awk 中 执行 inux 的 命令 。 如 : $ awk 'BEGIN{system("clear")' 。 


。 fflush 吉 数 用 以 刷新 输出 缓冲 区 ， 如 果 没 有 参数 ， 就 刷新 标准 输出 的 缓冲 区 ， 如 果 以 空 字 
符 串 为 参数 ， 如 fush("), 则 刷新 所 有 文件 和 管道 的 输出 缓冲 区 。 
14.5. 条 件 语句 
awk 中 的 条 件 语句 是 从 C 语 言 中 借鉴 过 来 的 ， 可 控制 程序 的 流程 。 
14.5.1. if 语 句 
格式 : 


{if (expression){ 
statement; statement; ... 


$ awk '{if ($1 &lt;$2) print $2 "too high"}' test 。 如 果 第 一 个 域 小 于 第 二 个 域 则 打印 。 
$ awk '{if ($1 &lt; $2) {count++; print "ok"}}' test .如 果 第 一 个 域 小 于 第 二 个 域 ， 则 
count 加 一 ， 并 打印 ok。 

14.5.2. if/else 语 名， 用 于 双重 判断 。 

格式 : 


{if (expression){ 
statement; statement; ... 


} 
elsef{ 
statement; statement; ... 
} 
} 


$ awk '{if ($1 &gt; 100) print $1 "bad" ; else print "ok"}' test ° 如 果 $1 大 于 100 则 打印 
$1 bad, 否 则 打印 ok 。 


$ awk '{if ($1 &gt; 100){ count++; print $1} else {count--; print $2}' test ° 如 果 $1 大 于 
100， 则 count 加 一 ， 并 打印 $1， 否 则 count 减 一 ， 并 打印 $1。 


14.5.3. if/lelse else 放 语 如 ， 用 于 多 重 判 断 。 
格式 : 


{if (expression){ 
statement; statement; ... 


else if (expression){ 
statement; statement; ... 


else if (expression){ 
statement; statement; ... 


else { 


} 


statement; statement; ... 


14.6. 循环 


。 awk 有 三 种 循环 :While 循环 ; for 循 环 ; special for 循 环 。 


®e $awk '{fi= 1; while ( i &lt;= NF ) { print NF,$i i++}}' test °。 变量 的 初始 值 为 1， 
若 i 小 于 可 等 于 NF( 记 录 中 域 的 个 数 ), 则 执行 打印 语句 ， 且 i 增加 1。 直到 i 的 值 大 于 NF. 


© $ awk '{for (i = 1; i&lt;NF; i++) print NF,$i}' test ° 作用 同上 。 


。 breadkcontinue 语 句 。break 用 于 在 满足 条 件 的 情况 下 跳出 循环 ; continue 用 于 在 满足 条 
件 的 情况 下 忽略 后 面 的 语句 ， 直 接 返 回 循环 的 顶端 ?如 : 


{for ( x=3; x&]lt;=NF; x++) 

if ($x&]lt;0){print "Bottomed out!"; break}} 
{for ( x=3; x&]lt;=NF; x++) 

if ($x==0){print "Get next item"; continue}} 


e。 next 语 名 从 输入 文件 中 读 取 一 行 ， 然 后 从 头 开 始 执 行 aWk 脚 本 。 如 : 


{if ($1 ~/test/){next} 
else {print} 
} 


e exit 语 句 用 于 结 来 awk 程 序 ， 但 不 会 略 过 END 块 。 退 出 状态 为 0 代表 成 功 ， 非 零 值 表示 出 
错 。 
14.7. 数组 
awk 中 的 数组 的 下 标 可 以 是 数字 和 字母 ， 称 为 关联 数组 。 
14.7.1. 下 标 与 关联 数组 
e 用 变量 作为 数组 下 标 。 


如 : $awk {name[x++]=$2};END{for(i=0;i&lt;NR;i++) print iname[i]}' test 。 数 组 
name 中 的 下 标 是 一 个 自 定义 变量 x，awk 初 始 化 x 的 值 为 0， 在 每 次 使 用 后 增加 1。 第 二 个 


域 的 值 被 赋 给 name 数 组 的 各 个 元 素 。 在 END 模 块 中 ，for 循 环 被 用 于 循环 整个 数组 ， 从 下 
标 为 0 的 元 素 开 始 ， 打 印 那 些 存 储 在 数组 中 的 值 。 因 为 下 标 是 关 健 字 ， 所 以 它 不 一 定 从 0 
开始 ， 可 以 从 任何 值 开 始 。 


。 Special for 循 环 用 于 读 取 关 联 数 组 中 的 元 素 。 格 式 如 下 : 


{for (item in arrayname ){ 
print arrayname[item] 


lL 


$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test ° 打印 有 值 的 数 
组 元 素 。 打 印 的 顺序 是 随机 的 。 


e。 用 字符 串 作为 下 标 。 如 : count["test"] 
e 用 域 值 作为 数组 的 下 标 。 一 种 新 的 for 循 环 方 
式 ” for (index_value in array) statement ° 
如 : $ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test ° 该 语 


句 将 打印 $1 中 字符 囊 出 现 的 次 数 。 它 首先 以 第 一 个 域 作 数 组 count 的 下 标 ， 第 一 个 域 变 
化 ， 索 引 就 变化 。 


。 delete 函 数 用 于 删除 数组 元 素 。 
如 : $ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test 。 分 配给 数组 line 
的 是 第 一 个 域 的 值 ， 所 有 记录 处 理 完成 后 ，special for 循 环 将 删除 每 一 个 元 素 。 


14.8. awKk 的 内 建 函 数 


14.8.1. 字符 串 函 数 


e。 sub 函数 匹配 记录 中 最 大 、 最 靠 左边 的 子 字符 串 的 正则 表达 式 ， 并 用 替换 字符 串 替 换 这 些 
字符 串 。 如 果 没 有 指定 目标 字符 串 就 默认 使 用 整个 记录 。 替 换 只 发 生 在 第 一 次 匹配 的 时 
候 。 格 式 如 下 : 


sub (regular expression, substitution string): 
sub (regular expression, substitution string, target string) 


$ awk '{ sub(/test/, "mytest"); print }' testfile 
$ awk '{ sub(/test/, "mytest"); $1}; print }' testfile 


第 一 个 例子 在 整个 记录 中 匹配 ， 替 换 只 发 生 在 第 一 次 匹配 发 生 的 时 候 。 如 要 在 整个 文件 
中 进行 匹配 需要 用 到 gsub 


第 二 个 例子 在 整个 记录 的 第 一 个 域 中 进行 匹配 ， 替 换 只 发 生 在 第 一 次 匹配 发 生 的 时 候 。 


e gsub 子 数 作 用 如 Sub， 但 它 在 整个 文档 中 进行 匹配 。 格 式 如 下 : 


gsub (regular expression, substitution string) 
gsub (regular expression, substitution string, target string) 


$ awk '{ gsub(/test/, "mytest"); print }' testfile 
$ awk '{ gsub(/test/, "mytest"), $1 }; print }' testfile 


第 一 个 例子 在 整个 文档 中 匹配 test， 匹 配 的 都 被 蔡 换 成 mytest 。 
第 二 个 例子 在 整个 文档 的 第 一 个 域 中 匹配 ， 所 有 匹配 的 都 被 替换 成 mytest 。 


e。 index 函 数 返 回 子 字符 串 第 一 次 被 匹配 的 位 置 ， 偏 移 量 从 位 置 1 开 始 。 格 式 如 下 : 


index(string, substring) 


$ awk '{ print index("test", "mytest") }' testfile 


实例 返回 test 在 mytest 的 位 置 ， 结 果 应 该 是 3。 


。 length 驾 数 返 回 记 录 的 字符 数 。 格 式 如 下 : 


length( string ) 
length 


$ awk '{ print length( "test" ) }" 
$ awk '{ print length }' testfile 


第 一 个 实例 返回 test 字 符 串 的 长 度 。 
第 二 个 实例 返回 testfile 文 件 中 第 条 记录 的 字符 数 。 


e substr 哆 数 返回 从 位 置 1 开 始 的 子 字符 串 ， 如 果 指 定 长 度 超 过 实际 长 度 ， 就 返回 整个 字符 
串 。 格 式 如 下 : 


Substr( string, starting position ) 
substr( string, starting position, length of string ) 


$ awk '{ print substr( "hello world", 7,11 ) }" 


上 例 截 取 了 world 子 字符 串 。 


e match 有 函数 返回 在 字符 串 中 正则 表达 式 位 置 的 索引 ， 如 果 找 不 到 指定 的 正则 表达 式 则 返回 
0。match 部 数 会 设置 内 建 变 量 RSTART 为 字符 串 中 子 字符 囊 的 开始 位 置 ，RLENGTH 为 
到 子 字 符 串 末尾 的 字符 个 数 。substr 可 利于 这 些 变量 来 截取 字符 串 。 函 数 格 式 如 下 : 


match( string, regular expression ) 


$ awk '{start=match("this is a test",/[a-z]+$/); print Start} 
$ awk '{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLE 


加 于 = 王 王 严守 





第 一 个 实例 打印 以 连续 小 写字 符 结 尾 的 开始 位 置 ， 这 里 是 11。 


第 二 个 实例 还 打印 RSTART 和 RLENGTH 变 量 ， 这 里 是 11(star)，11(RSTART) ， 
4(RLENGTH) 。 


e。 toupper 和 tolower 有 函数 可 用 于 字符 串 大 小 间 的 转换 ， 该 功能 只 在 gawk 中 有 效 。 格 式 如 
下 


toupper( string ) 
tolower( string ) 


$ awk '{ print toupper("test"), tolower("TEST") }' 


。 split 函 数 可 按 给 定 的 分 隔 符 把 字符 串 分 割 为 一 个 数组 。 如 果 分 隔 符 没 提供 ， 则 按 当 前 FS 
值 进 行 分 割 。 格 式 如 下 : 


split( string, array, field separator ) 
split( string, array ) 


$ awk '{ split( "20:18:00", time, ":™" ); print time[2] }' 


上 例 把 时 间 按 冒号 分 割 到 time 数 组 内 ， 并 显示 第 二 个 数组 元 素 18。 


14.8.2. 时 间 函 数 


。 systime 函 数 返回 从 1970 年 1 月 1 日 开始 到 当前 时 间 ( 不 计 头 年 ) 的 整 秒 数 。 格 式 如 下 : 


systime() 


$ awk '{ now = systime(); print now }! 


e。 strftime 远 数 使 用 C 库 中 的 strfime 郊 数 格式 化 时 间 。 格 式 如 下 : 


systime( [format specification][,timestamp] ) 


Table 3. 日 期 和 时 间 格 式 说 明 符 


格式 | 描述 

| eel| 

%a | 星期 几 的 缩写 (Sun) | 

%A | 星期 几 的 完整 写法 (Sunday) | 
%b | 月 名 的 缩写 (Oct) | 

%B | 月 名 的 完整 写法 (October ) | 
%Cc | 本 
%d 
%D 
%e 
%H 
%I 


| 
| 
| 
| 本 地 日 期 和 时 间 | 
| 十 进 制 日 期 | 
| 日 期 98/20/99 | 
| 日 期 ， 如 果 只 有 一 位 会 补 上 一 个 空格 | 
| 用 十 进 制 表示 24 小 时 格式 的 小 时 | 
| 用 十 进 制 表示 12 小 时 格式 的 小 时 | 
%j | 从 1 月 1 日 起 一 年 中 的 第 几 天 | 
%m | 十 进 制 表示 的 月 份 | 
%M | 十 进 制 表 示 的 分 钟 | 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 

| 


互 





%p | 12 小 时 表示 法 (AM/PM) | 

%S 和 进 制 表示 的 秒 | 

%U 和 进 制 表示 的 一 年 中 的 第 几 个 星期 (星期 天 作为 一 个 星期 的 开始 ) | 
%w 和 进 制 表 示 的 星期 几 ( 星 期 天 是 9) 

%W 和 进 制 表示 的 一 年 中 的 第 几 个 星期 (星期 一 作为 一 个 星期 的 开始 ) | 
%X | 重新 设置 本 地 日 期 (98/20/99) | 

%X | 重新 设置 本 地 时 间 (12 : 00:00) | 

%y | 两 位 数字 表示 的 年 (99) | 

%Y | 当前 月 份 | 

%Z | 时 区 (PDT) | 

%% | 百 分 号 (%) | 





NE et Mek ( 


$ awk '{ now=strftime( "%D", systime() ); print now }' 
$ awk '{ now=strftime("%m/%d/%y"); print now }' 


14.8.3. 内 建 数学 函数 


Table 4. 


函数 名 称 返回 值 


atan2(x,y) y,X 范 围 内 的 余 切 
cos(x) 余弦 函数 

exp(x) 求知 

int(x) 取 整 

log(x) 自然 对 数 

rand() 随机 数 

Sin(X) 正 纺 

sqrt(x) 并 

srand(x) X 有 是 rand() 函 数 的 种 子 
int(x) 取 整 ， 过 程 没有 舍 入 
rand() 产生 一 个 大 于 等 于 0 而 小 于 1 的 随机 数 


14.8.4. 自 定义 函数 
在 awk 中 还 可 自 定 义 函 数 ， 格 式 如 下 : 


function name ( parameter, parameter, parameter, ... ) { 

statements 

return expression # the return statement and exp 
} 


男 -一 





15. How-to 
e@ 如 何 把 一 行 坚 排 的 数据 转换 成 横 排 ? 


awk '{printf("%s,",$1)}' filename 
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1. grep 简 介 


grep (global search regular expression(RE) and print out the line, 全 面 搜索 正则 表达 式 并 把 
行 打 印 出 来 ) 是 一 种 强大 的 文本 搜索 工具 ， 它 能 使 用 正则 表达 式 搜索 文本 ， 并 把 匹配 的 行 打 
印 出 来 。Unix 的 grep 家 族 包括 grep、egrep 和 fgrep。egrep 和 fgrep 的 命令 只 跟 grep 有 很 小 不 

同 。egrep 是 grep 的 扩展 ， 支 持 更 多 的 re 元 字符 ，fgrep 就 是 fixed grep 或 fast grep， 它 们 把 所 
有 的 字母 都 看 作 单词 ， 也 就 是 说 ， 正 则 表达 式 中 的 元 字符 表示 回 其 自身 的 字面 意义 ， 不 再 特 
殊 。linux 使 用 GNU 版 本 的 grep。 它 功能 更 强 ， 可 以 通过 -G、-E、-F 命 令 行 选项 来 使 用 egrep 和 
fgrep 的 功能 。 


grep 的 工作 方式 是 这 样 的 ， 它 在 一 个 或 多 个 文件 中 搜索 字符 囊 模板 。 如 果 模板 包括 空格 ， 则 
必须 被 引用 ， 模 板 后 的 所 有 字符 串 被 看 作文 件 名 。 搜 索 的 结果 被 送 到 屏幕 ， 不 影响 原文 件 内 
grep 可 用 于 shell 脚 本 ， 因 为 grep 通 过 返回 一 个 状态 值 来 说 明 搜索 的 状态 ， 如 果 模 板 搜 索 成 
功 ， 则 返回 0， 如 果 搜 索 不 成 功 ， 则 返回 1， 如 果 搜 索 的 文件 不 存在 ， 则 返回 2。 我 们 利用 这 些 
返回 值 就 可 进行 一 些 自动 化 的 文本 处 理工 作 。 


2. grep 正 则 表达 式 元 字符 集 (基本 集 ) 


八 
锚 定 行 的 开始 如 : 'Agrep' 匹配 所 有 以 grep 开 头 的 行 。 
$ 


锚 定 行 的 结束 如 : 'grep$' 匹配 所 有 以 grep 结 尾 的 行 。 


匹配 一 个 非 换 行 符 的 字符 如 : 'gr.p' 匹 配 gr 后 接 一 个 任意 字符 ， 然 后 是 p。 

匹配 零 个 或 多 个 先前 字符 如 : '*grep' 匹 配 所 有 一 个 或 多 个 空格 后 紧 跟 grep 的 行 。 .* 一 起 用 代表 任意 字符 。 
[] 

匹配 一 个 指定 范围 内 的 字符 ， 如 ':[Gg]rep' 匹 配 Grep 和 grep。 

[A 

匹配 一 个 不 在 指定 范围 内 的 字符 ， 如 : ' [和 A-FH-Z]rep' 匹配 不 包含 A-R 和 T-Z 的 一 个 字母 开头 ， 紧 跟 rep 的 行 。 
\(..\) 

标记 匹配 字符 ， 如 '\(love\)'，loVve 被 标记 为 1。 

\< 

锚 定 单词 的 开始 ， 如: '\&1lt;grep' 匹配 包含 以 grep 开 头 的 单词 的 行 。 

\> 

锚 定 单词 的 结束 ， 如 !grepN&gt) 匹配 包含 以 grep 结 尾 的 单词 的 行 。 

x\{m\} 

重复 字符 X，m 次 ， 如 : '0\{5\}》' 匹配 包含 5 个 0 的 行 。 

x\{m,\} 

重复 字符 X, 至少 m 次 ， 如 : '0O\{5, \}' 匹配 至 少 有 5 个 0 的 行 。 

x\{m,n\} 

重复 字符 X， 至 少 m 次 ， 不 多 于 n 次 ， 如 : '0\{5,10\}' 匹 配 5--10 个 0 的 行 。 

NwW 

匹配 文字 和 数字 字符 ， 也 就 是 [A-Za-z0-9]， 如 : 'GNwx*p' 匹 配 以 G 后 跟 零 个 或 多 个 文字 或 数字 字符 ， 然 后 是 p。 
NW 

\W 的 反 置 形式 ， 匹 配 一 个 或 多 个 非 单词 字符 ， 如 点 号 句号 等 。 

\b 


单词 锁定 符 ， 如 : '\bgrep\b' 只 匹配 grep。 


3. 用 于 egrep 和 grep -E 的 元 字符 扩展 集 


3 
匹配 一 个 或 多 个 先前 的 字符 。 如 : ' [a-z]+able'， 匹 配 一 个 或 多 个 小 写字 母后 跟 able 的 囊 ， 如 loveable, enable, di 
匹配 零 个 或 多 个 先前 的 字符 。 如 : 'gr p' 匹 配 gr 后 跟 一 个 或 没有 字符 ， 然 后 是 p 的 行 。 

alblc 

匹配 a 或 b 或 c。 如 : grep|sed 匹 配 grep 或 sed 

() 

分 组 符号 ， 如 : love(able|rs)ov+ 匹 配 loveable 或 lovers， 匹 配 一 个 或 多 个 Ov。 

x{m}, x{m, }, x{m,n} 

作用 同 x\{m\},x\{m,\},x\{m,n\} 


|: 





4. POSIX 字 符 类 


为 了 在 不 同 国 家 的 字符 编码 中 保持 一 至 ，POSIX(The Portable Operating System Interface) 增 
加 了 特殊 的 字符 类 ， 如 [:alInum:] 是 A-Za-z0-9 的 另 一 个 写法 。 要 把 它们 放 到 上 [] 号 内 才能 成 为 正则 
表达 式 ， 如 [A-Za-z0-9] 或 [[:alInum:]]。 在 linux 下 的 grep 除 fgrep 外 ， 都 支持 POSIX 的 字符 类 。 


[:alnum:] 
文字 数字 字符 
[:alpha:] 
文字 字符 


[:digit: 


Es 


数字 字符 
[:graph:] 


非 宝 字符 ( 非 空格 、 控 制 字符 ) 


ey 


:lower:] 


忆 必 入 


` 写 字符 


PE ~ 


:cntrl:] 

控制 字符 
[:print:] 
非 空 字符 (包括 空格 ) 
[:punct:] 

标点 符号 
[:space:] 

所 有 空白 字符 (新 行 ， 空 格 ， 制 表 符 ) 
[:upper:] 

大 写字 符 
[:xdigit:] 


十 六 进 制 数 字 (9-9，a-f，A-F) 
5. Grep 命 令 选 项 


同时 显示 匹配 行 上 下 的 ? 行 ， 如 : grep -2 pattern filename 同 时 显示 匹配 行 的 上 下 2 行 。 
-bp ， --byte-offset 
打印 匹配 行 前 面 打 印 该 行 所 在 的 块 号 码 。 

-Cc ，--count 

只 打印 匹配 的 行 数 ， 不 显示 匹配 的 内 容 。 

-f File ， --file=File 


从 文件 中 提取 模板 。 空 文件 中 包含 0 个 模板 ， 所 以 什么 都 不 匹配 。 


-h ， --no-filename 
当 搜索 多 个 文件 时 ， 不 显示 匹配 文件 名 前 级 。 
-i ， --ignore-case 
忽略 大 小 写 差别 。 
-q ” --quiet 
取消 显示 ， 只 返回 退出 状态 。0 则 表示 找到 了 匹配 的 行 。 
-1] ， --files-with-matches 
打印 匹配 模板 的 文件 清单 。 
-L ， --files-without-match 
打印 不 匹配 模板 的 文件 清单 。 
-n ， --line-number 
在 匹配 的 行 前 面 打 印行 号 。 
-S30 > Salent 
不 显示 关于 不 存在 或 者 无 法 读 取 文 件 的 错误 信息 。 
-V ， --revert-match 
反 检 索 ， 只 显示 不 匹配 的 行 。 
-Ww ，” --word-regexp 
如 果 被 \< 和 \> 引 用 ， 就 把 表达 式 做 为 一 个 单词 搜索 。 
-V ， --version 


显示 软件 版 本 信息 。 


6. 实例 


要 用 好 grep 这 个 工具 ， 其 实 就 是 要 写 好 正则 表达 式 ， 所 以 这 里 不 对 grep 的 所 有 功能 进行 实例 
讲解 ， 只 列 几 个 例子 ， 讲 解 一 个 正则 表达 式 的 写法 。 
$ ls | grep 'Aa' 


A 


通过 管道 过 滤 |s 输 出 的 内 容 ， 只 显示 以 a 开 3 


*¥ 
IO 
< 分 
一 人 
人 

Lo] 


$ grep 'test' d* 


显示 所 有 以 d 开 头 的 文件 中 包含 test 的 行 。 
$ grep 'test' aa bb cc 
显示 在 aa，bb，cc 文 件 中 匹配 test 的 行 。 
$ grep '[a-z]\{5\}' aa 
显示 所 有 包含 每 个 字符 囊 至 少 有 5 个 连续 小 写字 符 的 字符 囊 的 行 。 
$ grep 'w\(es\)t.*\1' aa 
如 果 west 被 匹配 ， 则 es 就 被 存储 到 内 存 中 ， 并 标记 为 1， 然 后 搜索 任意 个 字符 (.) ， 这 些 字 
符 后 面 紧 跟着 另外 一 个 es (\1) ， 找 到 就 显示 该 行 。 如 果 用 egrep 或 grep -EE， 就 不 用 "号 进行 
转 义 ， 直 接 写 成 W(es)t\1' 就 可 以 了 。 
7. 技巧 
。 在 结果 集中 显示 彩色 的 字符 。 


export GREP_OPTIONS='--color=always' 
export GREP_COLOR='1;32" 
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MySQL 数 据 库 是 由 数据 组 成 的 ， 为 了 能 方便 管理 和 使 用 这 些 数 据 ， 我 们 把 这 些 数据 进行 分 

类 ， 形 成 各 种 数据 类 型 ， 有 数据 值 的 类 型 ， 有 表 中 数据 列 的 类 型 ， 有 数据 表 的 类 型 。 理 解 
MySQL 的 这 些 数据 类 型 能 使 我 们 更 好 地 使 用 MySQL 数 据 库 。 下 面 对 各 种 数据 类 型 进行 简单 的 
介绍 o 


| 一 吕 


1.1. 数据 值 类 型 (data type) 

对 MySQL 中 数据 值 的 分 类 ， 有 数值 型 、 字 符 型 、 日 期 型 和 空 值 等 ， 这 和 一 般 的 编程 语言 的 分 
类 差不多 。 

1.1.1. 数值 

MySQL 中 的 数值 分 整 型 和 浮 点 型 两 种 。MySQL 支 持 科学 记 数 法 。 整 型 可 以 是 十 进 制 ， 也 可 是 
十 六 进 制 数 。 

1.1.2. 字符 串 

MySQL 支 持 以 单 或 双 引 号 包围 的 字符 序列 。 如 “MySQL tutoria"、'Mysql Database'。 

MySQL 能 识别 字符 囊 中 的 转 义 序列 ， 转 义 序列 用 反 斜 杠 () 表 示 。 下 面 是 一 个 转 义 序列 列表 。 


Table 1.1. 转 义 序列 


转 义 序列 仿 尖 
\0 NUL(ASCII 的 0 值 ) 
y 单 引 号 
双 引 号 
\b 后 退 符 
\n 换行 符 
\r 回 车 符 
\t 制 表 符 
\ 反 斜 杠 
\Z Ctrl+Z 


如 果 字 符 串 本 身 包 含有 单 双 引号 ， 则 用 以 下 三 种 方法 中 的 一 种 来 表示 : 
。 字符 串 的 引号 和 字符 串 两 端的 引号 双 同 ， 则 双 写 该 引号 。 如 : 'mysql"s test'。 


。 用 与 字符 囊 的 引号 不 同 的 引号 把 字符 囊 引 起 来 ， 如 : "mysql's test" 。 


e 用 反 斜 杠 转 义 引 号 ， 如 : "mysqlv test" ，'mysql\' test'。 这 样 就 不 用 理会 字符 串 两 端的 是 
单 引号 还 是 双 引 号 了 。 


字符 串 可 由 一 个 十 六 进 制 数 表示 ， 如 0x61 表 示 字 符 "a"。 由 MySQL 4.0 开 始 ， 字 符 串 值 也 可 用 
ANSI SQL 表示 法 X'val' 来 表示 。 如 X'61' 表 示 字 符 "a" 。 


从 MySQL 4.1 开 始 ， 可 以 为 字符 串 值 专门 指定 一 个 字符 集 。 


1.1.3. 日 期 和 时 间 


MySQL 默 认 按 "年 -月 -日 "的 顺序 显示 日 期 。 


1.2. 列 类 型 (column type) 


MySQL 数 据 库 的 表 是 一 个 二 维 表 ， 由 一 个 或 多 个 数据 列 构成 。 每 个 数据 列 都 有 它 的 特定 类 
型 ， 该 类 型 决定 了 MySQL 如 何 看 待 该 列 数据 ， 我 们 可 以 把 整 型 数值 存放 到 字符 类 型 的 列 中 ， 
MySQL 则 会 把 它 看 成 字符 串 来 处 理 。MySQL 中 的 列 类 型 有 三 种 : 数值 类 、 字 符 串 类 和 日 期 / 
时 间 类 。 从 大 类 来 看 列 类 型 和 数值 类 型 一 样 ， 都 是 只 有 三 种 。 但 每 种 列 类 型 都 还 可 细 分 。 下 
面 对 各 种 列 类 型 进行 详细 介绍 。 


1.2.1. 数值 类 的 数据 列 类 型 
数值 型 的 列 类 型 包括 整 型 和 浮 点 型 两 大 类 。 


Table 1.2. 数值 类 数据 列 类 型 


存储 


数据 列 类 型 : 描述 





空间 
TINYINT 人 非常 小 的 正 整数 ， 带 符号 : -128~127， 不 带 符号 : 0~255 
SMALLINT <。 小 整数 ， 带 符号 : -32768~32767， 不 党 符号 : 0~65535 
3 字 中 等 大 小 的 整数 ， 带 符号 : -8388608~8388607， 不 带 符号 : 
| 滋 0~16777215 
INT 4 字 ， 标 准 整数 ， 带 符号 : -2147483648~2147483647， 不 带 符号 : 
节 0~4294967295 
8 字 ”大 整数 ， 带 符 
BIGINT 芭 号 : -9223372036854775808~9233372036854775807， 不 带 符 
号 : 0~18446744073709551615 
FLOAT 4 字 单 精度 浮 点 数 ， 最 小 非 零 值 : +-1.175494351E-38， 最 大 非 零 
节 值 : +-3.402823466E+38 
DOUBLE 8 字 双 精 度 浮 点 数 ， 最 小 非 零 值 : +-2.2250738585072014E-308 ， 
节 最 大 非 零 值 : +-1.7976931348623157E+308 
久 字 符 串 形式 表示 的 浮 点 数 ， 它 的 取 值 范围 可 变 ， 
DECIMAL J 0 式 表 示 的 半点 数 ， 它 的 取 值 范围 可 变 ， 由 M 和 D 的 值 


1.2.1.1. 整 型 数据 列 类 型 


MySQL 有 五 种 整 型 数据 列 类 型 ， 即 TINYINT，SMALLINT，MEDIUMINT ，INT 和 BIGINT。 它 
们 之 间 的 区 别 是 取 值 范围 不 同 ， 存 储 空间 也 各 不 相同 。 在 整 型 数据 列 后 加 上 UNSIGNED 属 性 
可 以 禁止 负数 ， 取 值 从 0 开始 。 


明 整 型 数据 列 时 ， 我 们 可 以 为 它 指 定 个 显示 宽度 M(1~255)， 如 INT(5)， 指 定 显 示 宽 度 为 5 个 
符 ,如 果 没 有 给 它 指定 显示 宽度 ，MySQL 会 为 它 指定 一 个 默认 值 。 显 示 宽 度 只 用 于 显示 ， 并 
限制 取 值 范围 和 占用 空间 ， 如 : INT(3) 会 占用 4 个 字 节 的 存储 空间 ， 并 且 允 许 的 最 大 值 也 
会 是 999, 而 是 INT 整 型 所 允许 的 最 大 值 。 


为 各 
和 Nr 


六 


1.2.1.2. 浮 点 型 数据 列 类 型 


MySQL 有 三 种 浮 点 型 数据 列 类 型 ， 分 别 是 : FLOAT，DOUBLE 和 DECIMAL 。 浮 点 类 数据 类 
型 有 一 个 最 大 可 表示 值 和 一 个 最 小 非 零 可 表示 值 ， 最 小 非 零 可 表示 值 决定 了 该 类 型 的 精确 

度 。 

MySQL 4.0.2 版 之 后 ，FLOAT 和 DOUBLE 都 可 以 指定 UNSIGNED 属 性 。 当 指定 该 属性 时 ， 取 
值 范围 不 平移 到 正 数 区 间 ， 而 只 是 简单 地 把 浮 点 类 型 的 负数 部 份 去 掉 。 


浮 点 类 型 也 有 M(1~255) 和 D(1~30， 且 不 能 大 于 M-2)。 分 别 表示 显示 宽度 和 小 数位 数 。M 和 D 
在 FLOAT 和 DOUBLE 中 是 可 选 的 ， 黑 认 ， 当 MySQL 版 本 大 于 3.23.6 时 ，FLOAT 和 和 DOUBLE 类 
型 将 被 保存 为 硬件 所 支持 的 最 大 精度 。DECIMAL 的 M 和 D 值 在 MySQL3.23.6 后 可 选 ， 默 认 D 值 


为 0,M 值 为 10。 


1.2.1.3. 如 何 选择 数值 类 数据 列 类 型 ? 


为 了 节省 存储 空间 和 提高 数据 库 处 理 效率 ， 我 们 应 根据 应 用 数据 的 取 值 范围 来 选择 一 个 最 适 
售 的 数据 列 类 型 。 如 果 把 一 个 超出 数据 列 取 值 范围 的 数 存 入 该 列 ， 则 MySQL 就 会 截 短 该 值 ， 
如 : 我 们 把 99999 存 入 SMALLINT(3) 数 据 列 里 ， 因 为 SMALLINT(3) 的 取 值 范围 

是 -32768~32767， 所 以 就 会 被 截 短 成 32767 存 储 。 显 示 宽 度 3 不 会 影响 数值 的 存储 。 只 影响 显 
示 。 

对 于 浮 点 数据 列 ， 存 入 的 数值 会 被 该 列 定义 的 小 数位 进行 四 舍 五 入 。 如 把 一 个 1.234 存 入 
FLOAT(6. 们 数据 列 中 ， 结 果 是 1.2。 

DECIMAL 与 FLOAT 和 DOUBLE 的 区 别 是 : DECIMAL 类 型 的 值 是 以 字符 串 的 形式 被 储存 起 来 
的 ， 它 的 小 数位 数 是 固定 的 。 它 的 优点 是 ， 不 会 稍 FLOAT 和 DOUBLE 类 型 数据 列 那 样 进 行 四 
使 五 入 而 产生 误差 ， 所 以 很 适合 用 于 财务 计算 ; 而 它 的 缺点 是 : 由 于 它 的 存储 格式 不 同 ， 
CPU 不 能 对 它 进 行 直接 运算 ， 从 而 影响 运算 效率 。DECIMAL(M，D) 总 共 要 占用 M+2 个 字 节 。 


1.2.1.4. 数值 类 数据 列 的 属性 


。 ZEROFILL 属 性 适用 于 所 有 数值 类 数据 列 类 型 ， 作 用 是 ， 如 果 数 值 的 宽度 小 于 定义 的 显示 
宽度 ， 则 在 数值 前 填充 0。 


UNSIGNED 属 性 不 允许 数据 列 出 现 负 数 。 
。 AUTO_INCREMENT 属 性 可 生成 独一无二 的 数字 序列 。 只 对 整数 类 的 数据 列 有 效 。 


。 NULL 和 NOT NULL 属 性 设置 数据 列 是 否 可 为 空 。 


DEFAULT 属 性 可 为 数据 列 指定 默认 值 。 


1.2.2. 字符 串 类 数据 列 类 型 


字符 串 可 以 用 来 表示 任何 一 种 值 ， 所 以 它 是 最 基本 的 类 型 之 一 。 我 们 可 以 用 字符 囊 类 型 来 丰 
储 图 象 或 声音 之 类 的 二 进 制 数据 ， 也 可 存储 用 gzip 压 缩 的 数据 。 下 表 介 绍 了 各 种 字符 囊 类 型 : 


Table 1.3. 字符 串 类 数据 列 类 型 


类 型 最 大 长 度 占用 存储 空间 
CHAR[(M)] M 字 节 M 字 节 
VARCHARI[(M)] M 字 节 L+1 字 节 
TINYBLOD » TINYTEXT 2^8-1 字 节 L+1 字 节 
BLOB ，TEXT 2^16-1 字 节 L+2 
MEDIUMBLOB ， MEDIUMTEXT 2^24-1 字 节 L+3 
LONGBLOB ， LONGTEXT 2^32-1 字 节 L+4 
ENUM(value1',value2'….) 65535 个 成 员 1 或 2 字 节 
SET('value1','value2',...) 64 个 成 员 1,2,3,4 或 8 字 节 


L+1、L+2 是 表示 数据 列 是 可 变 长 度 的 ， 它 占用 的 空间 会 根据 数据 行 的 增 减 面 则 改变 。 数 据 行 
的 总 长 度 取决 于 存放 在 这 些 数据 列 里 的 数据 值 的 长 度 。L+1 或 L+2 里 多 出 来 的 字 节 是 用 来 保存 
数据 值 的 长 度 的 。 在 对 长 度 可 变 的 数据 进行 处 理 时 ，MySQL 要 把 数据 内 容 和 数据 长 度 都 保存 
起 来 。 


如 果 把 超出 字符 串 最 大 长 度 的 数据 放 到 字符 类 数据 列 中 ，MySQL 会 自动 进行 截 短 处 理 。 


ENUM 和 SET 类 型 的 数据 列 定义 里 有 一 个 列表 ， 列 表 里 的 元 素 就 是 该 数据 列 的 合法 取 值 。 如 果 
试图 把 一 个 没有 在 列表 里 的 值 放 到 数据 列 里 ， 它 会 被 转换 为 空 字符 串 (”) 。 


字符 串 类 型 的 值 被 保存 为 一 组 连续 的 字 节 序列 ， 并 会 根据 它们 容纳 的 是 二 进 制 字符 串 还 是 非 


。 二 进 制 字符 串 被 视 为 一 个 连续 的 字 节 序列 ， 与 字符 集 无 关 。MySQL 把 BLOB 数 据 列 和 带 
BINARY 属 性 的 CHAR 和 VARCHAR 数 据 列 里 的 数据 当 作 二 进 制 值 。 


。 非 二 进 制 字符 串 被 视 为 一 个 连续 排列 的 字符 序列 。 与 字符 集 有 关 。MySQL 把 TEXT 列 与 不 
带 BINARY 属 性 的 CHAR 和 VARCHAR 数 据 列 里 的 数据 当 作 二 进 制 值 对 待 。 


在 MySQL4.1 以 后 的 版 本 中 ， 不 同 的 数据 列 可 以 使 用 不 同 的 字符 集 。 在 MySQL4.1 版 本 以 前 ， 
MySQL 用 服务 器 的 字符 集 作为 默认 字符 集 。 


非 二 进 制 字符 串 ， 即 我 们 通常 所 说 的 字符 串 ， 是 按 字符 在 字符 集中 先后 次 序 进 行 比 较 和 排序 
的 。 而 二 进 制 字 符 串 因为 与 字符 集 无 关 ， 所 以 不 以 字符 顺序 排序 ， 而 是 以 字 节 的 二 进 制 值 作 
为 比较 和 排序 的 依据 。 下 面 介 绍 两 种 字符 串 的 比较 方式 : 


。 二 进 制 字符 串 的 比较 方式 是 一 个 字 节 一 个 字 节 进行 的 ， 比 较 的 依据 是 两 个 字 节 的 二 进 制 
值 。 也 就 是 说 它 是 区 分 大 小 写 的 ， 因 为 同一 个 字母 的 大 小 写 的 数值 编码 是 不 一 样 的 。 
。 非 二 进 制 字符 串 的 比较 方式 是 一 个 字符 一 个 字符 进行 的 ， 比 较 的 依据 是 两 个 字符 在 字符 


集中 的 先后 顺序 。 在 大 多 数字 符 集中 ， 同 一 个 字母 的 大 小 写 往往 有 着 相同 的 先后 顺序 ， 
所 以 它 不 区 分 大 小 写 。 


二 进 制 字符 串 与 字符 集 无 关 ， 所 以 无 论 接 字 符 计算 还 是 按 字 节 计算 ， 二 进 制 字符 串 的 长 度 都 


是 一 样 的 。 所 以 VARCHAR(20) 并 不 表示 它 最 多 能 容纳 20 个 字符 ， 而 是 表示 它 最 多 只 能 容纳 可 
以 用 20 个 字 节 表示 出 来 的 字符 。 对 于 单字 节 字 符 集 ， 每 个 字符 只 占用 一 个 字 节 ， 所 以 这 两 者 
的 长 度 是 一 样 的 ， 但 对 于 多 字 节 字符 集 ， 它 能 容纳 的 字符 个 数 肯定 少 于 20 个 。 

1.2.2.1. CHAR 和 和 VARCHAR 

CHAR 和 VARCHAR 是 最 常用 的 两 种 字符 串 类 型 ， 它们 之 间 的 区 别 是 : 


。 CHAR 是 固定 长 度 的 ， 每 个 值 占用 相同 的 字 节 ， 不 够 的 位 数 MySQL 会 在 它 的 右边 用 空格 
字符 补足 。 

。 VARCHAR 是 一 种 可 变 长 度 的 类 型 ， 每 个 值 占用 其 刚好 的 字 节 数 再 加 上 一 个 用 来 记录 其 长 
度 的 字 节 即 L+1 字 节 。 


CHAR(0) 和 VARCHAR(0) 都 是 合法 的 。VARCHAR(0) 是 从 MySQL4.0.2 版 开始 的 。 它 们 的 作用 
是 作为 占 位 符 或 用 来 表示 各 种 on/off 开 关 值 。 


如 何 选 择 CHAR 和 VARCHAR， 这 里 给 出 两 个 原则 : 


。 如 果 数 据 都 有 相同 的 长 度 ， 选 用 VARCHAR 会 多 占用 空间 ， 因 为 有 一 位 用 来 存储 其 长 度 。 
如 果 数 据 长 短 不 一 ， 选 用 VARCHAR 能 节省 存储 空间 。 而 CHAR 不 论 字符 长 短 都 需 占用 相 
同 的 空间 ， 即 使 是 空 值 也 不 例外 。 


e 如 果 长 度 出 入 不 大 ， 而 且 是 使 用 MylSAM 或 ISAM 类 型 的 表 ， 则 用 CHAR 会 比 VARCHAR 
好 ， 因 为 MyISAM 和 1ISAM 类 型 的 表 对 处 理 国定 长 度 的 行 的 效率 高 。 


在 一 个 数据 表 里 ， 只 要 有 一 个 数据 列 的 长 度 是 可 变 的 ， 则 所 有 数据 列 的 长 度 将 是 可 变 
的 。MySQL 会 进行 自动 地 转换 。 一 个 例外 ，CHAR 长 度 小 于 4 的 不 会 进行 自动 转换 ， 因 为 
MySQL 会 认为 这 样 做 没 必要 ， 节 省 不 了 多 少 空间 。 反 而 MySQL 会 把 大 量 长 度 小 的 
VARCHAR 和 转换 成 CHAR， 以 减少 空间 占用 量 。 

1.2.2.2. BLOB 和 TEXT 

BLOB 是 二 进 制 字符 串 ，TEXT 是 非 二 进 制 字符 串 。 两 者 都 可 存放 大 容量 的 信息 。 

有 关 BLOB 和 TEXT 索引 的 建立 : 


e。BDB 表 类 型 和 MySQL3.23.2 以 上 版 本 的 MyISAM 表 类 型 允许 在 BLOB 和 TEXT 数据 列 上 建 
立 索 引 。 


e。 |SAM、HEAP 和 InnoDB 表 不 支持 大 对 象 列 的 索引 。 
使 用 BLOB 和 TEXT 应 注意 的 问题 : 


e@ 由 于 这 两 个 列 类 型 所 存储 的 数据 量 大 ， 所 以 删除 和 修改 操作 容易 在 数据 表 里 产 生 大 量 的 
碎片 ， 需 定期 运行 OPTIMIZE TABLE 以 减少 碎片 和 提高 性 能 。 


e 如 果 使 用 的 值 非常 巨大 ， 就 需 对 服务 器 进行 相应 的 优化 调整 ， 增 加 max_allowed_packet 
参数 的 值 。 对 那些 可 会 用 到 变 些 巨大 数据 的 客户 程序 ， 也 需 加 大 它们 的 数据 包 大 小 。 
1.2.2.3. ENUM 和 SET 


ENUM 和 SET 都 是 比较 特殊 的 字符 串 数 据 列 类 型 ， 它 们 的 取 值 范围 是 一 个 预先 定义 好 的 列表 。 
ENUM 或 SET 数据 列 的 取 值 只 能 从 这 个 列表 中 进行 选择 。ENUM 和 SET 的 主要 区 别 是 : 


。 ENUM 只 能 取 单 值 ， 它 的 数据 列表 是 一 个 枚 举 集合 。 它 的 合法 取 值 列表 最 多 允许 有 65535 
个 成 员 。 例 如 : ENUM("N","Y") 表 示 ， 该 数据 列 的 取 值 要 么 是 "Y"， 要 么 就 是 "N"。 


。 SET 可 取 多 值 。 它 的 合法 取 值 列表 最 多 允许 有 64 个 成 员 。 空 字符 囊 也 是 一 个 合法 的 SET 
值 。 


ENUM 和 SET 的 值 是 以 字符 串 形式 出 现 的 ， 但 在 内 部 ，MySQL 以 数值 的 形式 存储 它们 。 
e。 ENUM 的 合法 取 值 列表 中 的 字符 串 被 按 声明 定义 的 顺序 被 编号 ， 从 1 开始 。 


。 SET 的 编号 不 是 按 顺 序 进行 编号 的 ，SET 中 每 一 个 合法 取 值 都 对 应 着 SET 值 里 的 一 个 位 。 
第 一 个 合法 取 值 对 应 0 位 ， 第 二 个 合法 取 值 对 应 1 位 ， 以 此 类 推 ， 如 果 数 值 形式 的 SET 值 
等 于 0, 则 说 明 它 是 一 个 空 字符 串 ， 如 果 某 个 合法 的 取 值 出 现在 SET 数据 列 里 ， 与 之 对 应 的 
位 就 会 被 置 位 ; 如 果 某 个 合法 的 取 值 没有 出 现在 SET 数据 列 里 ， 与 之 对 应 的 位 就 会 被 清 
零 。 正 因为 SET 值 与 位 有 这 样 的 对 应 关系 ， 所 以 SET 数据 列 的 多 个 合法 取 值 才能 同时 出 现 
并 构成 SET 值 。 


1.2.2.4. 字符 串 类 型 数据 列 的 字符 集 属性 

在 MySQL 4.1 以 前 的 版 本 ， 字 符 串 数据 列 的 字符 集 由 服务 器 的 字符 决定 ，MySQL 4.1 版 以 后 的 
版 本 可 对 每 个 字符 串 数 据 列 指定 不 同 的 字符 串 。 如 果 按 默认 方式 设置 ， 可 按 数据 列 、 数 据 
表 、 数 据 库 、 服 务 器 的 顺序 关联 字符 串 的 字符 集 ， 直 到 找 一 个 明确 定义 的 字符 集 。 


1.2.3. 日 期 ,时 间 型 数据 列 类 型 


MySQL 的 日 期 时 间 类 型 有 : DATE，DATETIME，TIME，TIMESTAMP 和 YEAR， 下 表 是 这 些 
类 型 的 取 值 范围 和 存储 空间 要 求 : 


Table 1.4. 日 期 ， 时 间 类 型 列 


类 型 取 值 范围 存储 空间 零 值 表示 法 


3 字 节 (MySQL3.23 





DATE 1000-01-01~9999-12-31 版 以前 是 4 字 芝 | 0000-00-00 

TIME -838:59:59~838:59:59 3 字 节 00:00:00 
1000-01-01 

DATETIME 00:00:00~9999-12-31 8 字 节 人 
23:59:59 0 
19700101000000~2037 年 。 

TIMESTAMP 。 的 人 个 时 刘 4 字 节 00000000000000 

YEAR(4) : 1901~2155 人 


YEAR(2) : 1970~2069 
MySQL 总 是 把 日 期 和 日 期 里 的 年 份 放 在 最 前 面 ， 按 年 月 日 的 顺序 显示 。 


1.2.3.1. DATE、TIME、DATATIME 数 据 列 类 型 


DATE、TIME 和 DATATIME 类 型 分 别 存放 日 期 值 、 时 间 值 、 日 期 和 时 间 值 的 组 合 。 它 们 的 格式 
分 别 是 “CCYY-MM-DD”、“hh:mm:ss”、“CCYY-MM-DD hh:mm:ss”。 


DATATIME 里 的 时 间 值 和 TIME 值 是 有 区 别 的 ，DATATIME 里 的 时 间 值 代表 的 是 几 点 几 分 ， 
TIME 值 代表 的 是 所 花费 的 时 间 。 当 向 TIME 数 据 列 插值 时 ， 需 用 时 间 的 完整 写法 ， 如 12 分 30 
秒 要 写成 “00:12:30”。 


1.2.3.2. TIMESTAMP 数 据 列 类 型 


TIMESTAMP 数 据 列 的 格式 是 CCYYMMDDhhmmss， 取 值 范围 从 19700101000000 开 始 ， 即 
1970 年 1 月 1 号 ， 最 大 到 2037 年 。 它 的 特点 是 能 把 数据 行 的 创建 或 修改 时 间 记 录 下 来 : 


。 如 果 把 一 个 NULL 值 插入 TIMESTAMP 列 ， 这 个 数据 列 就 将 自动 取 值 为 当前 的 日 期 和 时 
间 。 


e。 在 创建 和 修改 数据 行 时 ， 如 果 没 有 明确 对 TIMESTAMP 数 据 列 进行 赋值 ， 则 它 就 会 自动 取 
值 为 当前 的 日 期 和 时 间 。 如 果 行 中 有 多 个 TIMESTAMP 列 ， 只 有 第 一 个 会 自动 取 值 。 


。 如 果 对 TIMESTAMP 设 置 一 个 确定 的 日 期 和 时 间 值 ， 则 会 使 TIMESTAMP 的 自动 取 值 功能 


TIMESTAMP 默 认 的 列 宽 是 14, 可 指定 列 帘 ， 以 改变 显示 效果 。 但 不 论 你 指定 的 列 宽 如 何 ， 
MySQL 都 是 以 4 字 节 来 存储 TIMESTAMP 值 ， 也 总 是 以 14 位 精度 来 计算 。 


如 果 需 要 把 创建 时 间 和 最 近 一 次 修改 时 间 同 时 记录 下 来 ， 可 以 用 两 个 时 间 惟 来 记录 ， 一 个 记 
录 创 建 时 间 ， 一 个 记录 修改 时 间 。 不 过 需 记 住 两 件 事 ， 一 是 要 把 记录 修改 时 间 的 TIMESTAMP 
数据 列 放 在 最 前 面 ， 这 样 才 会 自动 取 值 ; 二 是 创建 一 条 新 记录 时 ， 要 用 now() 函 数 来 初始 化 创 
建 时 间 TIMESTAMP 数 据 列 ， 这 样 ， 该 TIMESTAMP 数 据 列 就 不 会 再 变化 。 


1.2.3.3. YEAR 


YEAR 是 一 种 单字 节 的 数据 列 类 型 ，YEAR(4) 的 取 值 范围 是 1901~2155,YEAR(2) 的 取 值 范围 是 
1970~2069, 但 只 显示 最 后 两 位 数 。MySQL 能 自动 把 两 位 数字 年 份 转换 成 四 位 数字 的 年 份 ， 如 
97 和 14 分 被 转换 成 1997 和 2014。 和 转换 规则 是 这 样 的 : 


。 年 份 值 00~69 将 被 转换 成 2000~2069 ; 
。 年 份 值 70~99 将 被 转换 成 1970~1999。 


00 被 转换 成 0000, 而 不 是 2000。 因 为 数值 00 也 就 是 0, 而 0 值 是 YEAR 的 一 个 合法 取 值 。 


1.3. 唯一 编号 


在 数据 库 应 用 ， 我 们 经 常 要 用 到 唯一 编号 ， 以 标识 记录 。 在 MySQL 中 可 通过 数据 列 的 
AUTO_INCREMENT 属 性 来 自动 生成 。MySQL 支 持 多 种 数据 表 ， 每 种 数据 表 的 自 增 属 性 都 有 
差异 ， 这 里 将 介绍 各 种 数据 表 里 的 数据 列 自 增 属性 。 

。 ISAM 表 


o 如 果 把 一 个 NULL 播 入 到 一 个 AUTO _INCREMENT 数 据 列 里 去 ，MySQL 将 自动 生成 
下 一 个 序列 编号 。 编 号 从 1 开始 ， 并 1 为 基数 递增 。 


O 


把 0 插入 AUTO_INCREMENT 数 据 列 的 效果 与 插入 NULL 值 一 样 。 但 不 建议 这 样 做 ， 
还 是 以 插入 NULL 值 为 好 。 


O 


当 插 入 记录 时 ， 没 有 为 AUTO_INCREMENT 明 确 指 定 值 ， 则 等 同 插入 NULL 值 。 


oO 


当 插 入 记录 时 ， 如 果 为 AUTO_INCREMENT 数 据 列 明确 指定 了 一 个 数值 ， 则 会 出 现 
两 种 情况 ， 情 况 一 ， 如 果 播 入 的 值 与 已 有 的 编号 重复 ， 则 会 出 现 出 错 信息 ， 因 为 
AUTO_INCREMENT 数 据 列 的 值 必须 是 唯一 的 ; 情况 二 ， 如 果 插 入 的 值 大 于 已 编号 
的 值 ， 则 会 把 该 插入 到 数据 列 中 ， 并 使 在 下 一 个 编号 将 从 这 个 新 值 开始 递增 。 也 就 
是 说 ， 可 以 跳 过 一 些 编号 。 


o 如 果 自 增 序列 的 最 大 值 被 删除 了 ， 则 在 插入 新 记录 时 ， 该 值 被 重用 。 


o 如 果 用 UPDATE 命 令 更 新 自 增 列 ， 如 果 列 值 与 已 有 的 值 重复 ， 则 会 出 错 。 如 果 大 于 
已 有 值 ， 则 下 一 个 编号 从 该 值 开 始 递增 。 


o 如 果 用 replace 命 令 基 于 AUTO_INCREMENT 数 据 列 里 的 值 来 修改 数据 表 里 的 现 有 记 
录 ， 即 AUTO_INCREMENT 数 据 列 出 现在 了 replace 命 令 的 where 子 乡里 ， 相 应 的 
AUTO_INCREMENT 值 将 不 会 发 生变 化 。 但 如 果 replace 命 令 是 通过 其 它 的 
PRIMARY KEY OR UNIQUE 索 引 来 修改 现 有 记录 的 ( 即 AUTO_INCREMENT 数 据 列 
没有 出 现在 replace 命 令 的 where 子 名 中 )， 相 应 的 AUTO_INCREMENT 值 -- 如 果 设 置 
其 为 NULL( 如 没有 对 它 赋值 ) 的 话 -- 就 会 发 生变 化 。 


oO 


last_insert_id() 函 数 可 获得 自 增 列 自 动 生成 的 最 后 一 个 编号 。 但 该 函数 只 与 服务 器 的 
本 次 会 话 过 程 中 生成 的 值 有 关 。 如 果 在 与 服务 器 的 本 次 会 话 中 尚未 生成 
AUTO_INCREMENT 值 ， 则 该 函数 返回 0 。 


数据 表 的 自动 编号 机 制 都 以 ISAM 表 中 的 机 制 为 基础 。 


。 MylSAM 数 据 表 


oO 


删除 最 大 编号 的 记录 后 ， 该 编号 不 可 重用 。 
可 在 建 表 时 可 用 “AUTO_INCREMENT=n” 选 项 来 指定 一 个 自 增 的 初始 值 。 
可 用 alter table table_name AUTO_INCREMENT=n 命 令 来 重 设 自 增 的 起 始 值 。 


可 使 用 复合 索引 在 同一 个 数据 表 里 创 建 多 个 相互 独立 的 自 增 序列 ， 具 体 做 法 是 这 样 
的 : 为 数据 表 创建 一 个 由 多 个 数据 列 组 成 的 PRIMARY KEY OR UNIQUE 索 引 ， 并 把 
AUTO_INCREMENT 数 据 列 包括 在 这 个 索引 里 作为 它 的 最 后 一 个 数据 列 。 这 样 ， 这 
个 复合 索引 里 ， 前 面 的 那些 数据 列 每 构成 一 种 独一无二 的 组 合 ， 最 末尾 的 
AUTO_INCREMENT 数 据 列 就 会 生成 一 个 与 该 组 合 相对 应 的 序列 编号 。 


e。 HEAP 数 据 表 


O 


oO 


HEAP 数 据 表 从 MySQL4.1 开 始 才 允许 使 用 自 增 列 。 

自 增值 可 通过 CREATE TABLE 语 句 的 AUTO_INCREMENT=n 选 项 来 设置 。 

可 通过 ALTER TABLE 语 句 的 AUTO_INCREMENT=n 选 项 来 修改 自 增 始 初 值 。 
编号 不 可 重用 。 

HEAP 数 据 表 不 支持 在 一 个 数据 表 中 使 用 复合 索引 来 生成 多 个 互 不 干扰 的 序列 编号 。 


e。 BDB 数 据 表 


oO 


oO 


oO 


不 可 通过 CREATE TABLE OR ALTER TABLE 的 AUTO_INCREMENT=n 选 项 来 改变 
自 增 初始 值 。 


可 重用 编号 。 
支持 在 一 个 数据 表 里 使 用 复合 索引 来 生成 多 个 互 不 干扰 的 序列 编号 。 


e。 InnDB 数 据 表 


oO 


oO 


oO 


不 可 通过 CREATE TABLE OR ALTER TABLE 的 AUTO_INCREMENT=n 选 项 来 改变 
自 增 初始 值 。 


不 可 重用 编号 。 


不 支持 在 一 个 数据 表 里 使 用 复合 索引 来 生成 多 个 互 不 干扰 的 序列 编号 。 


在 使 用 AUTO_INCREMENT 时 ， 应 注意 以 下 几 点 : 


AUTO _INCREMENT 是 数据 列 的 一 种 属性 ， 只 适用 于 整数 类 型 数据 列 。 


设置 AUTO_INCREMENT 属 性 的 数据 列 应 该 是 一 个 正 数 序列 ， 所 以 应 该 把 该 数据 列 声明 
为 UNSIGNED， 这 样 序列 的 编号 个 可 增加 一 倍 。 


AUTO_INCREMENT 数 据 列 必须 有 唯一 索引 ， 以 避免 序号 重复 。 
e。AUTO _INCREMENT 数 据 列 必 须 具备 NOT NULL 属 性 。 


e。AUTO_INCREMENT 数 据 列 序号 的 最 大 值 受 该 列 的 数据 类 型 约束 ， 如 TINYINT 数 据 列 的 
最 大 编号 是 127, 如 加 上 UNSIGNED， 则 最 大 为 255。 一 旦 达到 上 限 ， 
AUTO_INCREMENT 就 会 失效 。 


当 0 除 时 ，AUTO_INCREMENT 会 从 1 重新 开始 编号 。 全 表 删 除 的 意思 是 发 出 以 
两 条 语 台 名 时 : 


delete from table name; 
or 
truncate table table name 


这 是 因为 进行 全 表 操 作 时 ，MySQL 实 际 是 做 了 这 样 的 优化 操作 : 先 把 数据 表 里 的 所 有 数 
据 和 索引 删除 ， 然 后 重建 数据 表 。 如 果 想 删除 所 有 的 数据 行 又 想 保留 序列 编号 信息 ， 可 
这 样 用 一 个 带 where 的 delete 命 令 以 抑制 MySQL 的 优化 : 


delete from table name where 1; 


这 将 迫使 MySQL 为 每 个 删除 的 数据 行 都 做 一 次 条 件 表 达 式 的 求 值 操作 。 


强制 MySQL 不 复 用 已 经 使 用 过 的 序列 值 的 方法 是 : 另外 创建 一 个 专门 用 来 生成 
AUTO_INCREMENT 序 列 的 数据 表 ， 并 做 到 永远 不 去 删除 该 表 的 记录 。 当 需要 在 主 数据 
表 里 插 入 一 条 记录 时 ， 先 在 那个 专门 生成 序号 的 表 中 插入 一 个 NULL 值 以 产生 一 个 编号 ， 
然后 ， 利用 LAST_INSERT ID() 有 函数 取 得 这 个 编号 ， 并 把 它 
赋值 给 主 表 的 存放 序列 的 数据 列 。 


Insert into id set id = NULL ， 
insert into main set main_ id = LAST_INSERT_ID(); 


。 可 用 alter 命 令 给 一 个 数据 表 增 加 一 个 具有 AUTO_INCREMENT 属 性 的 数据 列 。MySQL 会 
自动 生成 所 有 的 编号 。 


。 要 重新 排列 现 有 的 序列 编号 ， 最 简单 的 方法 是 先 删除 该 列 ， 再 重建 该 ，MySQL 会 重新 生 
连续 的 编号 序列 。 


。 在 不 用 AUTO_INCREMENT 的 情况 下 生成 序列 ， 可 利用 带 参 数 的 LAST_INSERT_ID() 却 
数 。 如 果 用 一 个 带 参 数 的 LAST_INSERT ID(expr) 去 插入 或 修改 一 个 数据 列 ， 紧 接着 又 调 
用 不 带 参 数 的 LAST_INSERT _ID() 函 数 ， 则 第 二 次 函数 调用 返回 的 就 是 expr 的 值 。 下 面 演 
示 该 方法 的 具体 操作 : 


先 创建 一 个 只 有 一 个 数据 行 的 数据 表 : 


create table seq_table (id int unsigned not null); 
insert into seq_table values (0); 


接着 用 以 下 操作 检索 出 序列 号 : 


update seq table set seq = LAST_INSERT_ID( seq + 1 ); 
select LAST_INSERT_ID(); 


通过 修改 seq+1 中 的 常数 值 ， 可 生成 不 同步 长 的 序列 ， 如 seq+10 可 生成 步 长 为 10 的 序 


也 
oo 


该 方法 可 用 于 计数 器 ， 在 数据 表 中 插入 多 行 以 记录 不 同 的 计数 值 。 再 配合 
LAST_INSERT_ID() 驾 数 的 返回 值 生 成 不 同 内 容 的 计数 值 。 这 种 方法 的 优点 是 不 用 事务 或 
LOCK，UNLOCK 表 就 可 生成 唯一 的 序列 编号 。 不 会 影响 其 它 客户 程序 的 正常 表 操 作 。 


1.4. 字符 集 支持 


MySQL4.1 以 前 版 本 服务 器 只 能 使 用 单一 字符 集 ， 从 MySQL4.1 版 本 开始 ， 不 仅 服务 器 能 够 使 
用 多 种 字符 集 ， 而 且 在 服务 器 、 数 据 库 、 数 据 表 、 数 据 列 以 及 字符 串 常数 多 个 级 别 上 设置 不 
同 的 字符 集 。 


1.4.1. MySQL4.1 以 前 版 本 


MySQL4.1 以 前 版 本 的 字符 集 由 服务 器 默认 指定 ， 默 认 值 是 编译 系统 时 指定 的 字符 集 ， 该 字符 
集 也 可 通过 在 启动 服务 器 时 指定 --default-character-set 来 修改 。 这 种 修改 会 对 数据 表 的 索引 造 
成 影响 ， 因 为 索引 的 顺序 是 和 字符 集 有 关 的 ， 修 改 字 符 集 会 使 这 个 已 排序 的 顺序 产生 错误 。 
要 解决 该 问题 ， 我 们 要 用 修改 后 的 字符 集 的 排序 顺序 重建 表 的 索引 。 重 建 索引 有 以 下 几 种 方 
法 : 


e。 用 mysqldump 导 出 数据 ， 再 清除 表 里 的 内 容 ， 最 后 用 导出 文件 重新 导入 。 数 据 表 的 索引 
将 在 导入 数 时 重建 。 该 方法 适用 于 所 有 数据 表 类 型 。 


。 删除 索引 ， 然 后 重建 。 用 alter table 命 令 或 drop index 和 create index 命 令 来 完成 。 该 方法 
也 适用 于 所 有 数据 表 类 型 。 但 该 方法 需要 我 们 了 解 重建 索引 的 精确 定义 。 


。 MylSAM 数 据 表 的 索引 可 以 用 myisamchk 程 序 的 --recover 和 --quick 选 项 加 上 一 个 用 来 设 定 


新 字符 集 的 --set-character-set 选 项 进行 重建 。 还 可 以 用 mysqlcheck 程 序 的 --repair 和 -- 
quick 选 项 或 者 一 个 带 QUICK 选 项 的 REPLACE TABLE 语 名 来 重建 索引 ， 这 种 方式 较 方 
便 。 


1.4.2. MySQL4.1 以 后 版 本 


MySQL4.1 以 后 的 版 本 对 字符 集 的 支持 好 了 很 多 ， 具 有 以 下 新 增 功能 : 


。 支持 服务 器 同时 使 用 多 种 字符 集 。 


。 允许 在 服务 器 ， 数 据 库 ， 数 据 表 ， 数 据 列 等 多 级 别 上 设置 不 同 的 字符 集 。 


o 服务 器 的 默认 字符 集 在 编译 时 选 定 ， 但 可 在 启动 服务 器 时 用 --default-character-set 选 
项 来 更 改 。 


o 用 ALTER DATABASE db_name DEFAULT CHARACTER SET charset 来 设置 数据 
库 字 符 集 。 如 果 只 有 default 参 数 ， 则 使 用 服务 器 的 字符 集 。 


o 用 CREATE TABLE table_name(...) CHARACTER SET = charset 设 置 数据 表 字 符 
集 。 如 果 charset 为 default， 则 使 用 数据 表 所 在 数据 库 的 字符 集 作 为 数据 表 的 字符 
集 o 


o 在 数据 列 中 ， 可 用 CHARACTER SET charset 属 性 来 设置 数据 列 的 字符 集 。charset 
不 能 是 default， 如 果 没 有 该 属性 ， 则 默认 使 用 数据 表 的 字符 集 。 允 许 设置 字符 集 的 
数据 列 有 char，varchar( 不 带 binary 属 性 ) 及 TEXT 类 型 。 


o 用 _charset str 转 换 字 符 串 常数 的 字符 集 。 如 : _utf8 'mysql'，_latinl 'oracle'。 该 方法 
只 适用 于 括 在 引号 内 的 字符 串 ， 其 它 十 六 进 制 常数 、 字 符 串 表达 式 等 可 用 
CONVERT() 函 数 进 行 转换 ， 如 : SELECT CONVERT( str USING charset)。 


通过 MySQL 提 供 的 函数 可 进行 字符 集 转换 和 查询 。 


新 增 的 COLLATE 操 作 符 使 我 们 可 按 某 一 种 字符 集 的 排序 顺序 来 处 理 另 一 种 字符 集 的 数 
据 。 如 : SELECT afromtORDER BY a COLLATE utf-8 ; 


用 SHOW CHARACTER SET 命令 可 显示 服务 器 支持 的 字符 集 列 表 。 
当 服 务 器 转换 到 另 一 种 字符 集 时 ， 会 自动 对 索引 进行 重新 排序 。 


通过 UTF-8 和 UCS2 字 符 集 提供 了 Unicode 支 持 。 


MySQL 现 在 还 不 支持 : 1, 在 同一 个 字符 囊 里 混用 不 同 字符 集 的 字符 ; 2, 在 同一 个 数据 列 里 混 
用 不 同 的 字符 集 。 


1.4.3. 各 级 字符 集 的 查询 方法 


1 
它 


e@ 服务 


绢 
演 


SHOW CHARACTER SET ; 可 查 出 可 供 使 用 的 所 有 字符 集 。 
SHOW VARIABLES LIKE 'character_set' ; 可 查 出 服务 器 的 默认 字符 集 。 


。 可 查 出 数据 库 级 的 字符 集 。 


SHOW CREATE DATABASE db_name ; 


。 两 条 命令 可 查 出 数据 表 的 字符 集 。 


SHOW CREATE TABLE table name; 
SHOW TABLE STATUS LIKE 'table name' 


。 以 下 几 命令 可 查 出 数据 列 的 字符 集 : 


DESCRIBE table name; 
SHOW COLUMNS FROM table name; 
SHOW CREATE TABLE table name; 


。 用 CHARSET() 函 数 可 确定 特定 字符 串 ， 字 符 串 表达 式 或 数据 列 值 相 关联 的 字符 串 的 字符 
集 。 如 : SELECT CHARSET(str)。 


1.4.4. Unicode 支 持 


MySQL 提 供 两 种 字符 集 来 支持 Unicode。 一 个 是 UTF-8， 一 种 可 变 长 的 编码 格式 ， 需 用 1 至 4 
个 字 节 来 表示 一 个 字符 ; 另 一 个 是 UCS2， 该 字符 集中 的 每 个 字符 需要 用 两 个 字 节 来 表示 。 


1.5. 如 何 选 择 数 据 列 类 型 ? 
选择 正确 的 数据 列 类 型 能 大 大 提高 数据 库 的 性 能 和 使 数据 库 具 有 高 扩展 性 。 在 选择 数据 列 类 
型 时 ， 请 从 以 下 几 个 方面 考虑 : 
。 存放 到 数据 列 中 的 数据 类 型 。 
。 数据 值 的 取 值 范围 。 
e 考虑 性 能 和 处 理 效率 。 
o 数值 操作 比 字符 操作 快 。 
o 小 类 型 的 处 理 速 度 比 大 类 型 快 。 


。 不 同 数 据 表 中 国定 长 度 类 型 和 可 变 长 度 类 型 的 处 理 效率 是 不 同 的 。 


可 变 长 度 类 型 在 经 过 删除 和 修改 操作 后 容易 产生 碎片 ， 降 低 系统 性 能 ， 需 定期 运行 
OPTIMIZE TABLE 命 令 以 优化 数据 表 。 


固定 长 度 类 型 由 于 有 固定 的 长 度 ， 所 以 容易 确定 每 条 记录 的 起 始点 ， 可 加 快 数据 表 
的 修复 速度 。 


在 MylISAM 和 1ISAM 表 中 使 用 国定 长 度 类 型 数据 列 有 助 改善 数据 库 性 能 。 


在 InnoDB 表 中 ， 固 定 长 度 和 可 变 长 度数 据 列 类 型 都 以 相同 方式 存储 ， 所 以 固定 长 度 
数据 列 类 型 并 没有 性 能 优势 ， 反 而 由 于 可 度 长 度数 据 列 类 型 由 于 占用 存储 空间 较 
少 ， 所 以 处 理 速度 会 快 些 。 


。 可 索引 类型 能 加 快 数据 的 查询 速度 。 


。 明确 指定 数据 列 的 NOT NULL 属 性 可 使 MySQL 在 检索 过 程 中 不 用 去 判断 数据 列 是 否 
是 NULL， 所 以 可 加 快 处 理 速 度 。 


e@ 数据 如 何 进 行 比较 ， 是 否 区 分 大 小 写 。 
e。 是 否 要 在 数据 列 上 建立 索引 。 
、 ~ 忆 A 
1.6. 表达 式 操 作 符 


Table 1.5. 算术 操作 符 


操作 符 语法 含义 
+ ar+b 相 加 
= a-b 相 减 
-a 求 负 
a*b 乘法 
/ ay/b 除法 
% a%b 求 余 
Table 1.6. 逻辑 操作 符 

操作 符 语法 含义 

AND 或 && aANDb 或 a&&b 逮 辑 与 ， 若 两 个 操作 数 同时 为 大， 则 为 引 
OR 或 | aORb 或 al|b 逻辑 或 ， 只 要 有 一 个 操作 数 为 申 ， 则 为 站 
XOR aXOR pb 逻辑 蜡 或 ， 若 有 且 仅 有 一 个 操作 数 为 丰 ， 则 为 丨 
NOT 或 ! NOT a 或 !a 逻辑 非 ， 若 操作 数 为 假 ， 则 为 卜 








Table 1.7. 位 操作 符 


操作 符 语法 ok 


& a&b 按 位 与 ， 若 操作 数 同 位 同 为 1, 则 该 位 为 1 

alb 按 位 或 ， 若 操作 数 同位 有 一 位 为 1, 则 该 位 为 1 

上 a^b 按 拉 蜡 或 ， 若 操作 数 同一 位 分 别 为 1 和 0, 则 该 位 为 1 
<< a<<b 把 a 中 的 各 个 位 左 移 b 个 位 置 

>> a>>b 把 a 中 的 各 个 位 右 移 b 个 位 置 


Table 1.8. 比较 操作 符 


操作 符 语法 含义 
区 a=b 若 两 个 操作 数 相 等 ， 则 为 揽 
， 则 为 羡 ， 可 用 于 NULL 
!= 或 <> al=b 或 a<>b 若 两 个 操 用 数 不 等 ， 则 为 站 
< a<b 若 a 小 于 b， 则 为 站 
<= a<=b 若 a 小 于 或 等 于 b， 则 为 站 
> a>b 若 a 大 于 b， 则 为 凌 
>= a>b 若 a 大 于 或 等 于 b， 则 为 引 
IN alIN (b1,b2,...) 等 于 b1,b2,... 中 的 某 一 个 ， 则 为 真 
BETWEEN aBETWEENbANDc 若 a 在 b 和 Cc 之 问 (包括 b 和 c)， 则 为 卜 
re 若 a 不 在 b 和 c 之 间 ( 包 括 b 和 cj)， 则 为 昌 
LIKE aLIKE b SQL 模 式 匹 配 ， 若 a 匹配 b， 则 为 站 
NOT LIKE a NOT LIKEb SQL 模 式 匹 配 ， 若 a 不 匹配 b， 则 为 站 
REGEXP a REGEXP b 正则 表达 式 匹配 ， 若 a 匹配 D， 则 为 站 
ol a NOT REGEXP b 正则 表达 式 匹 配 ， 若 a 不 匹配 b， 则 为 站 
REGEXP 
IS NULL alS NULL 若 a 为 NULL， 则 为 站 
ISNOTNULL alSNOTNULL 若 a 不 为 NULL， 则 为 盖 


LIKE 模 式 匹 配 中 的 “%” 匹 配 任意 个 字符 ，“ ”匹配 一 个 字符 。 匹 配 不 区 分 大 小 写字 符 。 


Table 1.9. 操作 符 优先 级 (由 高 至 低 排列 ) 


操作 符 
BINARY ， COLLATE 
NOT、 |! 
i 
XOR 
-( 一 元 求 负 操 作 符 )、~( 一 元 取 反 操作 符 ) 
*、 / 、 0% 


<、<=、=、<=>、!=、<>、>=、>、IN、IS、LIKE、REGEXP、RLIKE 
BETWEEN、CASE、WHEN、THEN 、ELSE 

AND、&& 

OR 、`| 


1.7. 类 型 转换 


在 MySQL 的 表达 式 中 ， 如 果 某 个 数据 值 的 类 型 与 上 下 文 所 要 求 的 类 型 不 相符 ，MySQL 则 会 根 
据 将 要 进行 的 操作 自动 地 对 数据 值 进行 类 型 转换 。 如 : 


a S22 会 转换 成 1 + 2 
1+ "abc' 会 转换 成 1 + 0 


1 由 于 abc 不 能 转换 成 任何 的 值 ， 所 以 默认 为 0 


MySQL 会 根据 表达 式 上 下 文 的 要 求 ， 把 字符 串 和 数值 自动 转换 为 日 期 和 时 间 值 


对 于 超 范围 或 非法 的 值 ，MySQL 也 会 进行 转换 ， 但 转换 出 来 的 结果 是 错误 的 。 出 现 该 情况 
时 ，MySQL 会 提示 警告 信息 ， 我 们 可 捕获 该 信息 以 进行 相应 的 处 理 。 


Chapter 2. 查询 优化 
数据 库 是 数据 的 集合 ， 与 数学 的 集合 论 有 密 不 可 分 的 关系 。 
为 提高 查询 速度 ， 我 们 可 以 : 


。 对 数据 表 添 加 索引 ， 以 加 快 搜索 速度 ; 


e@ 通过 编程 技巧 最 大 限度 地 利用 索引 ; 
e。 优化 查询 语句 ， 以 使 服务 器 最 快 响应 多 客户 的 请 求 。 


。 研究 硬件 处 理 过 程 ， 减 少 物理 约束 。 


2.1. 索引 

索引 技术 是 关系 数据 查询 中 最 重要 的 技术 。 如 果 要 加 提升 数据 库 的 性 能 ， 索 引 优化 是 首先 应 
该 考虑 的 。 因 为 它 能 使 我 们 的 数据 库 得 到 最 大 性 能 方面 的 提升 。 

索引 的 优点 : 


。 没有 索引 的 表 是 没有 排序 的 数据 集合 ， 如 果 要 查询 数据 需 进 行 全 表 扫 描 。 有 索引 的 表 是 
一 个 在 索引 列 上 排序 了 数据 表 ， 可 通过 索引 快速 定位 记录 。 在 MylISAM 和 1ISAM 数 据 表 
中 ， 数 据 行 保存 在 数据 文件 中 ， 索 引 保 存在 索引 文件 中 。BDB 和 与 InnoDB 数 据 表 把 数据 与 
索引 放 在 同一 个 文件 中 。 


e 在 多 表 关 联 查 询 中 ， 索 引 的 作用 就 更 大 。 如 果 没 有 索引 ， 在 最 坏 的 情况 下 ， 全 表 扫 描 的 
次 数 可 能 是 各 表 数 据 行 的 组 合 个 数 ， 可 能 是 一 个 天 文 数 字 。 这 样 的 查询 是 破坏 性 的 ， 可 
能 会 造成 数据 库 次 痰 。 


e 对 于 使 用 了 MIN() 或 是 MAX() 有 函数 的 查询 ， 如 果 相 关 的 数据 列 上 有 索引 ，MySQL 能 直接 找 
到 该 最 大 、 最 小 值 的 行 ， 根 本 不 用 一 个 一 个 地 去 检查 数据 行 。 


e。 索引 加 快 ORDER BY 和 GROUP BY 子 句 的 操作 。 


。 当 在 数值 型 数据 列 上 查询 数据 ， 而 该 列 有 索引 ， 索 引 能 使 MYSQL 根 本 不 用 去 读 取 数 据 
行 ， 直 接 从 索引 取 值 。 


索引 的 缺点 : 

。 索引 需 占 用 磁盘 空间 。 

。 索引 会 减 慢 在 索引 数据 列 上 的 插入 、 删 除 和 修改 操作 。 
索引 列 的 选择 


e。 索引 应 该 创建 在 搜索 、 排 序 、 分 组 等 操作 所 涉及 的 数据 列 上 。 也 就 是 说 ， 在 where 子 名 ， 
关联 检索 中 的 from 子 句 、order by 或 group by 子 句 中 出 现 过 的 数据 列 最 适合 用 来 创建 索 
引 。 


e 尽量 使 用 唯一 索引 ， 它 能 使 索引 发 挥 最 好 的 效能 。 


。 尽量 用 比较 短 的 值 进行 索引 。 当 对 字符 串 进 行 索引 时 ， 应 该 指定 一 个 前 组 长 度 ， 比 如 对 
字符 串 的 前 10 位 或 20 位 的 字符 进行 排序 ， 而 不 用 把 整个 字符 串 几 十 个 字符 用 来 索引 排 
序 。 这 样 能 减少 磁盘 IJO， 提 高 处 理 速度 。 最 重要 的 一 点 是 ， 键 值 越 短 ， 索 引 缓冲 区 里 容 


纳 的 键 值 也 就 越 多 ， 而 MySQL 同 时 保存 在 内 存 里 的 索引 越 多 ， 索 引 缓冲 区 的 命中 率 也 就 
越 高 。 当 然 ， 只 对 数据 列 第 一 个 字符 进行 索引 是 没什么 意义 的 。 


分 利用 最 左前 级。 所 谓 最 左前 组 也 就 是 在 复合 索引 中 最 边 的 索引 列 。 如 复合 索引 (aub,c) 
， 其 中 a 就 是 最 左前 级 。 它 是 使 用 兴 最 高 的 索引 ， 需 认真 选择 。 


e。 不 要 建 太 多 索引 ， 索 引 是 会 消耗 系统 资源 的 ， 要 适可而止 。 


。 索引 主要 用 于 <、<=、=、>=、>、BETWEEN 等 的 比较 操作 中 ， 所 以 索引 应 该 建立 在 与 
这 样 操作 相关 的 数据 列 上 。 


e 利用 慢 查 询 日 志 来 找 出 性 能 差 的 查询 ， 通 过 mysqldumpslow 可 查看 该 日 志 。 针 对 性 能 差 
的 查询 可 利用 索引 来 加 快 查询 速度 。 


查询 优化 程序 


当 我 们 发 一 条 查询 命令 时 ，MySQL 分 对 它 进 行 分 析 ， 以 优化 查询 。 把 explain 语 名 放 到 查询 前 
面 可 显示 查询 的 执行 路 线 ， 对 优化 查询 提供 有 用 的 信息 。 以 下 几 个 原则 可 帮助 系统 挑选 和 使 
用 索引 : 


。 尽量 对 同类 型 的 数据 列 进 行 比较 。 如 : VARCHAR(5) 和 VARCHAR(5) 是 同类 型 的 ， 
CHAR(5) 和 VARCHAR(5) 是 不 同类 型 的 。 


尽量 让 索引 的 数据 列 在 比较 表达 式 中 单独 出 现 ， 不 要 把 它 包含 在 函数 或 复杂 表达 式 。 
则 索引 会 不 起 作用 。 


e 尽量 不 要 在 LIKE 模 式 的 开头 使 用 通配符 。 如 : %string% 。 


对 于 MyISAM 和 BDB 数 据 表 ， ee TABLE 语 句 让 服务 器 对 索引 键 值 的 分 布 进行 分 
析 ， 为 优化 程序 提供 更 有 价值 的 信息 。 另 一 个 方法 是 用 myisamchk --analyze( 适 用 于 
MylISAM 表 ) 或 isamchk i A 。 


e 用 EXPLAIN 语 多 来 分 析 查 询 语 名 的 执行 效率 。 检 查 查询 所 使 用 的 索引 是 不 是 能 够 迅速 地 
排除 不 符合 条 件 的 数据 行 ， 如 果 不 是 ， 可 以 试 着 用 STRAIGHT_JOIN 强 制 各 有 关 数 据 表 按 
指定 顺序 进行 关联 。 


e。 尝试 查询 的 不 同 写法 ， 比 较 运 行情 况 。 


e 不 要 滥用 MySQL 的 类 型 自动 转换 功能 。 自 动 转换 会 减 慢 查 询 的 速度 并 会 使 有 关 的 索引 失 
效 。 


2.3. 数据 列 类 型 与 查询 效率 


选用 适当 的 数据 列 类 型 有 助 于 提高 查询 命令 的 执行 速度 ， 下 面 是 几 点 关于 如 何 选 择 合适 数据 
列 类 型 的 建议 : 


尽量 选用 尺寸 较 小 的 数据 列 。 这 样 能 节约 磁 瘟 空间 和 加 快 查询 速度 。 如 果 较 短 的 数据 列 
上 建 有 索引 ， 则 索引 的 处 理 速度 会 进一步 提高 。 


针对 数据 列 类 型 ， 尽 量 选择 最 适用 的 数据 表 类 型 。 如 国定 长 度数 据 列 在 MylISAM 或 ISAM 

数据 表 中 的 速度 是 最 快 的 ， 所 以 在 这 样 数 据 表 中 尽量 使 用 char 类 型 而 不 是 varchar 类 型 来 

保存 字符 串 数据 。 对 于 InnoDB 数 据 表 类 型 ， 由 于 varchar 类 型 可 有 效 减少 占用 空间 ， 从 而 

减少 磁盘 JJO， 所 以 使 用 varchar 类 型 是 有 利 的 。 对 于 BDB 类 型 数据 表 ， 使 用 定 长 和 不 定 长 
列 类 型 的 区 别 就 不 大 ， 可 任 选 一 种 。 


尽量 把 数据 列 声明 为 NOT NULL， 以 节约 存储 空间 和 加 快 处 理 速 度 


对 于 取 值 范围 有 限 的 数据 列 ， 考 虑 使 用 ENUM 数 据 列 类 型 。ENUM 数 据 列 类 型 在 MySQL 
中 的 处 理 速度 是 很 快 。 


使 用 PROCEDURE ANALYSE() 语 名 来 分 析 数 据 表 ， 它 会 对 数据 列 的 声明 提出 建议 ， 我 们 
可 根据 建议 进行 修改 。 


select * from table name PROCEDURE ANALYSE(); 
select * from table name PROCEDURE ANALYSE(16,256); #(16, 256 ) 含 义 是 : 如 果 某 列 的 不 同 取 1 


国 


用 OPTIMIZE TABLE 语 多 对 容易 出 现 碎片 的 数据 表 进 行 整理 。 包 含 可 变 长 数据 列 的 数据 
表 都 会 产生 碎片 ， 从 而 占用 多 余 的 磁盘 空间 和 影响 查询 速度 。 所 以 要 定期 运行 OPTIMIZE 
TABLE 语 名 以 防止 数据 表 查 询 性 能 降低 。 但 该 语句 只 对 MylSAM 数 据 表 有 效 。 对 各 种 数据 
表 通 用 的 碎片 整理 方法 是 这 样 的 : 先 用 工具 程序 mysqldump 导 出 数据 表 ， 再 删除 数据 表 
后 重建 ， 如 : 





$ mysqldump --opt db_name table name &gt; dump.sql 
$ mysql db_name &lt; dump.sql 


把 非 结 构 化 和 变化 大 的 数据 放 在 BLOB 数 据 列 里 ， 定 期 用 OPTIMIZE TABLE 命 令 优化 。 


人 为 地 给 数据 表 增 加 一 个 数据 列 ， 以 充当 索引 。 做 法 是 这 样 的 ， 先 根据 数据 表 里 的 其 它 
数据 列 计算 出 一 个 散 列 值 ， 并 保存 在 一 个 数据 列 里 ， 然 后 通过 搜索 散 列 值 来 检索 数据 
行 。 注 意 ， 该 技巧 只 适用 于 精确 匹配 型 查询 。 散 列 值 在 大 于 ， 人 小 于 等 的 操作 中 不 起 作 

用 。 散 列 值 可 以 MD5()( 适 用 于 3.23 及 以 上 版 本 )，SHA1()( 适 用 于 4.0.1 及 以 上 版 本 )， 
CRC32()( 适 用 于 4.1 及 以 上 版 本 ) 等 函数 生成 。 使 用 散 列 值 支 检 索 BLOB 和 TEXT 值 的 做 法 
比 直接 检索 BLOB 和 TEXT 本 身 的 做 法 快 。 


避免 对 大 尺寸 的 BLOB 值 进行 检索 。 如 果 要 检索 都 应 该 通过 它 的 上 面 提 到 散 列 值 先 进 
行 第 选 。 而 不 应 该 盲目 地 在 网 络 中 传送 大 量 BLOB 值 。 


如 果 把 BLOB 值 剥离 到 另外 一 个 数据 表 里 去 ， 可 实现 数据 表 中 其 它 数据 列 转变 成 固定 长 度 
数据 列 的 话 。 就 即 可 减少 数据 表 碎 片 ， 又 可 使 在 原始 表 中 的 select * 查 询 不 会 把 大 尺寸 的 
BLOB 值 不 必要 地 通过 网 络 传送 。 


2.4. 有 效 地 加 载 数 据 


有 时 我 们 需 大 量 地 把 数据 加 载 到 数据 表 ， 采 用 批量 加 载 的 方式 比 一 个 一 个 记录 加 载 效 率 高 ， 
因为 MySQL 不 用 每 加 载 一 条 记录 就 刷新 一 次 索引 。 下 面 介绍 几 个 有 助 于 加 快 数 据 加 载 的 操 


作 : 


使 用 LOAD DATA 语 句 要 比 INSERT 语 句 的 加 载 速 度 快 


LOAD DATA 比 LOAD DATA LOCAL 语 句 的 3 人 。 前 者 可 由 服务 器 直接 从 本 地 磁盘 读 取 
加 载 数据 ， 后 者 需 由 客户 程序 去 读 取 文 件 并 通过 网 络 传送 到 服务 器 。 


如 果 一 定 要 用 INSERT 语 句 ， 应 尽量 在 一 条 语句 中 插入 多 个 数据 行 。 


如 果 必 须 使 用 多 条 INSERT 语 名 ， 则 应 尽量 把 它们 集中 在 一 起 放 到 一 个 事务 中 进行 处 理 ， 
而 不 是 在 自动 提交 模式 下 执行 它们 : 如 

BEGIN; 

INSERT INTO table_name values (...); 

INSERT INTO table name values (...); 

INSERT INTO table_name values (...); 


COMMIT; 


对 于 不 支持 事务 的 表 ， 应 对 表 进 行 写 锁定 ， 然 后 在 表 锁 定期 间 对 表 进 行 INSERT 操 作 ， 
如 : 

LOCK TABLES table name WRITE; 

INSERT INTO table name ...; 

INSERT INTO table name ...; 

INSERT INTO table name ...; 


UNLOCK TABLES; 
利用 客户 /服务 器 通信 协议 中 的 压缩 功能 以 减少 网 络 传输 的 数据 量 。 但 该 压缩 会 消耗 大 量 
的 系统 资源 ， 所 以 小 心 使 用 。 


尽量 让 MySQL 插 入 默认 值 。 不 要 在 INSERT 中 写 太 多 值 ， 以 减少 网 络 传输 量 和 服务 器 端 
的 语法 分 析 时 间 。 


对 于 MylISAM 和 1ISAM 数 据 表 ， 如 果 需 加 载 大 量 数 据 ， 应 先 建立 一 个 没 索 引 的 表 ， 加 载 数 
据 后 再 创建 索引 。 该 方法 不 适用 于 InnoDB 或 BDB 数 据 表 。 


禁用 和 重新 激活 索引 的 方法 有 两 种 : 


。 使 用 ALTER TABLE 语 名 的 DISABLE KEYS 和 ENABLE KEYS 命 令 ， 如 : 


ALTER TABLE table name DISABLE KEYS ; 
ALTER TABLE table name ENABLE KEYS ; 


。 使 用 myisamchk 或 isamchk 工 具 。 如 : 


$ myisamchk --keys-used=0 table_name # 禁 目 
$ myisamchk --recover --quick --key-used=n table_name  # 激 活 


Eh 、 需要 激活 索引 的 位 掩 码 ， 第 0 位 对 应 第 一 个 索引 ， 如 果 有 三 个 索引 ，n 值 就 是 
7( 二 进 制 111)。 索 引 编号 可 以 下 命令 确定 : 


$ myisamchk --description table_name 


2.5. 调度 和 锁 


在 很 多 客户 一 起 查询 数据 表 时 ， 如 果 使 客户 能 最 快 地 查询 到 数据 就 是 调度 和 锁定 做 的 工作 
了 。 在 MySQL 中 ， 我 们 把 select 操 作 叫 做 读 ， 把 对 数据 表 修改 增加 的 操作 
(INSERTUPDATE,REPLACE...) 叫 做 写 。MySQL 的 基本 调度 策略 可 以 归纳 为 以 下 两 条 : 


e@ 写 入 请 求 将 按 它们 到 达 服 务 器 的 顺序 进行 处 理 ; 
。 写 操作 的 优先 级 要 高 于 读 操 作 。 


MyISAM 和 1ISAM 数 据 表 的 调度 策略 是 在 数据 表 锁 的 帮助 下 实现 的 ， 在 客户 问 数 据 表 
之 前 ， 需 获得 相应 的 锁 ， 在 完成 对 数据 表 的 操作 后 ， 再 释放 该 锁 。 锁 的 管理 通常 由 服务 器 
理 ， 也 可 人 为 地 用 LOCK TABLES 和 UNLOCK TABLES 命 令 来 申请 和 释放 锁 。 写 操作 时 ， 

要 申请 一 个 独占 性 的 锁 ， 也 就 是 说 在 写 操作 其 间 ， 该 表 只 能 由 写 操 作 的 客户 使 用 。 gy 

时 ， 客 户 必 须 申 请 一 个 允许 其 他 客户 对 数据 表 进 行 写 操作 的 锁 ， 以 确保 客户 在 读 的 过 程 中 数 
据 表 不 会 发 生 改 变 。 但 读 操作 人 锁 不 是 独占 的 ， 可 有 多 个 读 操作 同时 作用 于 同一 个 数据 表 。 


通过 一 些 修饰 符 可 影响 调度 策略 ， 如 LOW_PRIORITY( 用 于 DELETE,INSERTLOAD 
DATA,REPLACE,UPDATE 语 句 ) HIGH_PRIORITY( 用 于 SELECT 语句 ) DELAYED( 用 于 
INSERT 和 REPLACE 语 句 )。 它 们 的 作用 是 这 样 的 : 


。 LOW_PRIORITY 会 使 写 操作 的 优先 级 降低 到 读 操 作 以 下 ， 也 就 是 说 读 操作 会 阻塞 该 级 别 
的 写 操作 ，SELECT 的 HIGH_PRIORITY 有 类 似 的 作用 。 


。 AR 。 并 返回 状态 信 
息 给 客户 ， 使 客户 程序 可 在 新 数据 行 还 没 插 入 到 数据 表 之 前 继续 执行 后 面 的 操作 。 如 果 
一 直 有 客户 读 该 数据 表 ， 新 数据 行 会 一 直 待 在 队列 中 ， 直 到 数据 表 没 有 读 操作 时 ， 服 务 
器 才 会 把 队列 中 的 数据 行 昊 正 插入 到 数据 表 中 。 该 语句 可 用 在 以 下 场合 ， 在 一 个 有 郊 长 
查询 的 数据 表 中 插入 数据 ， 而 你 又 不 想 被 阻塞 ， 你 就 可 发 出 INSERT DELAYED 语 句 ， 把 
插入 操作 放 入 服务 器 “延迟 插入 "队列 ， 你 无 需 等 待 就 马上 可 进行 接 下 来 的 操作 。 


e。 当 一 个 数据 表 里 从 未 进行 过 删除 操作 或 刚刚 对 它 进行 过 碎片 整理 的 情况 下 ， 用 INSERT 语 
名 插入 的 数据 行 只 会 被 添加 到 数据 表 的 末尾 ， 而 不 会 插入 到 数据 表 的 中 间 位 置 。 这 样 ， 
对 于 MyISAM 表 ，MySQL 人 允许 在 有 其 它 客户 正在 读 操作 的 时 间 进 行 写 操作 。 我 们 称 之 这 
并 发 插入 。 要 使 用 该 技巧 ， 需 注意 以 下 两 个 问题 : 


o 不 要 在 INSERT 语 名 中 使 用 LOW_PRIORITY 修 饰 符 。 


卖 操作 应 用 LOCK TABLES ... READ LOCAL 而 不 是 用 LOCK TABLES ... READ 语 乡 
ge 行 数据 表 读 锁定 。LOCAL 关 和 键 字 只 对 数据 表 中 已 存在 行进 行 锁定 ， 不 会 阻塞 把 
新 行 添加 到 数据 表 末 尾 。 


BDB 数 据 表 使 用 页 面 级 操作 锁 ，lInnoDB 数 据 表 使 用 数据 行 级 操作 人 锁 。 所 以 这 两 种 表 的 并 发 性 
比 MylSAM 和 1ISAM 数 据 表 这 种 表 级 锁 的 并 发 性 会 好 很 多 。 其 中 InnoDB 的 并 发 性 最 好 。 综 上 所 
述 ， 我 们 可 得 出 以 下 结论 : 。 


。 MyISAM 和 1ISAM 数 据 表 的 检索 速度 最 快 ， 但 如 果 在 检索 和 修改 操作 较 多 的 场合 ， 会 出 锁 
竞争 的 问题 ， 造 成 等 待 时 间 延 长 。 

。 BDB 和 InnoDB 数 据 表 能 在 有 大 量 修改 操作 的 环境 下 提供 很 好 的 并 发 性 ， 从 而 提供 更 好 的 
性 能 。 


et es te 行 表 级 锁定 ， 所 以 不 会 出 现 死 锁 现 象 ，BDB 和 |InnoDB 数 据 
表 则 存在 死 锁 的 可 能 性 。 


2.6. 服务 器 优化 

优化 原则 : 

e@ 内 存 里 的 数据 要 比 磁盘 上 的 数据 访问 起 来 快 

。 站 数据 尽 可 能 长 时 间 地 留 在 内 存 里 能 减少 磁盘 读 写 活动 的 工作 量 ; 
。 让 索引 信息 留 在 内 存 里 要 比 让 数据 记录 的 内 容留 在 内 存 里 更 重要 。 
针对 以 上 几 个 原则 ， 我 们 应 该 调整 服务 器 : 


。 增加 服务 器 的 缓存 区 容量 ， 以 便 数 据 在 内 存在 停留 的 时 间 长 一 点 ， 以 减少 磁盘 110。 下 面 
介绍 几 个 重要 的 缓冲 区 : 
o 数据 表 缓 冲 区 存放 着 与 打开 的 数据 表 相 的 信息 ， 它 的 大 小 可 由 服务 器 参 
数 *table_cache" 设 置 。Opened tables 参 数 记 录 服 务 器 进行 过 多 少 次 数据 表 打 开 操 


作 ， 如 果 该 值 变 化 很 大 ， 就 可 能 是 数据 表 缓 冲 区 已 满 ， 需 把 一 些 不 常用 的 表 移 出 缓 
冲 区 ， 以 腾 出 空 打开 新 的 数据 表 。 可 用 以 下 命令 查看 Dpened tables 的 值 : 


SHOW STATUS LIKE 'Opened tables'; 


o 在 MylISAM 和 ISAM 数 据 表 中 ， 索 引 被 缓存 在 “key buffer" 里 ， 它 的 大 小 由 服务 器 参 
数 "key_buffer_ size" 来 控制 。 系 统 默认 的 大 小 是 8M， 如 果 内 存 充 足 的 话 可 适当 扩大 
该 值 ， 以 使 更 多 索引 块 缓存 在 该 区 里 ， 以 加 快 索引 的 速度 


o InnoDB 和 BDB 数 据 表 也 各 有 一 个 缓冲 区 ， 分 别 叫 innodb_buffer_pool_size 和 
bdb_cache _size。InnoDB 还 有 一 个 日 志 缓 冲 区 叫 innodb log_buffer_size。 


o 自 4.0.1 开 始 ，MySQL 多 了 一 个 缓冲 区 ， 叫 Sa 区 ， 主 要 用 来 存放 重复 执行 的 查 
询 文 本 和 结果 ， 当 再 次 遇 到 相同 的 查询 ， 服 务 器 会 直接 从 缓冲 区 中 返回 结果 。 该 功 
能 是 内 建 的 功能 ， 如 不 想 支 持 该 功能 ， 可 在 编译 服务 器 时 用 configure 脚 本 的 -- 
without-query-cache 选 项 去 掉 该 功能 。 


查询 缓冲 区 由 三 个 服务 器 参数 控制 ， 分 别 是 : 


1、 query_cache size 
控制 缓冲 区 的 大 小 ， 如 果 该 值 为 0, 则 禁用 查询 缓冲 功能 。 设 置 方法 是 在 选项 文件 中 设 
置 : 


[mysqld] 
set-variable = query_cache_size = 16M 


这 样 就 设置 了 一 个 16M 的 查询 缓冲 区 


2、query_cache limit 缓冲 结果 集 的 最 大 容量 (以 字 节 为 单位 )， 如 果 查 询 的 结果 集 大 
于 该 值 ， 则 不 缓冲 该 值 。 


3、 query_cache type 

缓冲 区 的 操作 模式 。 

0 表示 不 进行 缓冲 ; 

1 表示 除 SELECT SQL_NO_CACHE 开 头 的 查询 外 ， 其 余 的 都 缓冲 ; 
2 表示 只 对 以 SELECT SQL_ON_CACHE 开 头 的 查询 进行 缓冲 。 


默认 情况 下 ， 按 服务 器 的 设置 进行 缓冲 ， 但 客户 端 也 可 通过 命令 改变 服务 器 设置 。 
ee 直接 用 SELECT SQL_NO_CACHE 和 SELECT SQL_CACHE 命 令 来 要 求 服 

缓冲 或 不 缓冲 查询 结果 。 如 果 不 想 每 条 查询 都 写 参数 ， 我 们 也 可 在 客户 端 用 SET 
SQL QUERY_CACHE_TYPE = val; 来 改变 服务 器 的 查询 缓冲 行为 。Vval 可 取 值 0， 
1,2 或 OFF，ON， 或 DEMAND 。 


禁用 用 不 着 的 数据 表 处 理 程序 。 如 服务 器 是 从 源码 创建 ， 就 可 彻底 禁用 ISAM，lInnoDB 和 
BDB 数 据 表 。 


权限 表 里 的 权限 关系 应 尽 可 能 简单 ， 当 然 了 ， 是 要 在 保证 安全 的 前 提 下 。 


e 在 从 源码 创建 服务 器 时 ， 尽 量 使 用 静态 库 而 不 是 共享 库 来 完成 其 配置 工作 。 静 态 库 的 执 
行 速度 更 快 ， 但 如 果 要 加 载 用 户 定义 函数 (UDF) 的 话 ， 就 不 能 使 用 静态 库 ， 因 为 UDF 机 制 
必须 依赖 动态 库 才 能 实现 。 


2.7. 硬件 优化 
为 了 提高 数据 运行 速度 ， 升 级 硬件 是 最 直接 的 解决 方案 。 针 对 数据 库 应 用 的 特点 ， 在 升级 硬 
件 时 应 考虑 以 下 内 容 : 


。 对 于 数据 库 服 务 器 ， 内 存 是 最 重要 的 一 个 影响 性 能 因素 。 通 过 加 大 内 存 ， 数 据 库 服务 器 
可 把 更 多 的 数据 保存 在 缓冲 区 ， 可 大 大 减少 磁盘 IJO， 从 而 提升 数据 库 的 整体 性 能 。 


。 配置 高 速 磁盘 系统 ， 以 减少 读 盘 的 等 待 时 间 ， 提 高 响应 速度 。 


@ 合理 分 布 磁盘 |/O， 应 把 磁盘 |/ 〇 分 散在 多 个 设备 上 ， 以 减少 资源 竞争 ， 提 高 并 行 操作 能 
力 o 


。 配置 多 处 理 器 ，MySQL 是 多 线程 的 数据 库 ， 多 处 理 器 可 同时 执行 多 个 线程 。 


Chapter 3. 数据 库 管 理 

数据 库 是 一 个 复杂 而 又 关键 的 系统 ， 为 确保 系统 安全 、 高 效 运行 ， 需 熟悉 数据 库 内 部 的 运作 
机 制 ， 掌 握 各 种 维护 工具 ， 并 做 好 日 常 的 管理 工作 。 下 面 列 举 几 项 主要 工作 职责 : 

。 服务 器 的 关闭 和 启动 ; 

。 管理 用 户 帐号 ; 

。 管理 日 志文 件 ; 

e 数据 库 备份 恢复 ; 

e 数据 库 优 化 ; 

。 确保 数据 库 数 据 安 全 ; 


e 数据 库 软 件 升级 。 


1. 数据 目录 
数据 目录 是 用 来 存放 数据 表 和 相关 信息 的 地 方 ， 是 数据 库 的 核心 。 在 MySQL 中 的 数据 目录 根 
据 不 同 平台 的 有 一 些 差异 : 


e 在 UNIX/Linux 系 统 上 ， 如 果 用 源码 编译 安装 ， 数 据 目 录 的 位 置 默 认 是 
在 /usr/local/mysql/var 中 ; 


。 在 UNIX/Linux 系 统 上 ， 如 果 用 二 进 制 发 行 版 安装 ， 数 据 目 录 的 位 置 默认 是 
在 /usr/local/mysql/data 中 ; 


。 在 WINDOWS 系 统 上 ， 数 据 目录 的 位 置 默 认 是 在 c:/mysql/data 中 ; 
在 服务 器 启动 时 ， 可 用 --datadir=dir name 来 指定 数据 目录 ， 也 可 把 它 写 到 配置 文件 中 。 


我 们 还 可 用 命令 向 服务 器 查询 数据 目录 的 位 置 ， 数 据 目 录 的 变量 名 是 datadir， 如 : 


% mysqladmin variables 


如 果 在 一 台 
ee 


3 


上 同时 运行 多 个 服务 器 ， 则 可 根据 端口 的 不 时 来 查询 每 个 服务 器 的 数据 


% mysqladmin --host=127.0.0.1 --port=port_number variables 


如 果 --host 是 localhost， 系 统 则 会 用 一 个 UNIX 套 接 字 去 连接 数据 库 服务 器 ， 这 时 要 使 用 -- 
socket 选 项 ， 所 以 查询 语句 变 成 : 


% mysqladmin --host=localhost --socket=/path/to/socket variables 


mysql> SHOW VARIABLES LIKE 'datadir'; 


。 在 windows NT 平台 上 可 以 使 用 "作为 一 条 命名 管道 连接 的 主机 名 ， 用 --socket 选 项 给 出 
命名 管道 的 名 字 ， 如 


c:\ mysqladmin --host=. --socket=pipe_name variables 


。 配置 文件 的 中 [mysqld] 段 中 的 datadir=/path/to/datadir 设 置 也 可 查询 到 数据 目录 。 


。 在 mysqld 程 序 的 帮助 信息 里 也 有 程序 编译 时 默认 的 数据 目录 信息 ， 可 用 以 下 命令 显示 


% mysqld --help 


数据 目录 是 存放 数据 文件 的 地 方 ， 每 个 数据 库 对 应 目录 的 不 同文 件 。InnoDB 数 据 表 由 于 用 表 
空间 来 管理 数据 库 ， 所 以 就 没 这 种 对 应 关系 。 但 也 是 保存 在 数据 目录 中 的 ， 在 数据 目录 除 保 
存 数 据 库 文件 外 ， 还 可 能 会 保存 以 下 几 类 文件 : 


@ 服务 器 3 的 配置 文件 ， ， my.cnf ; 
。 服务 器 的 进程 ID(PID) 文 件 ; 


e 服务 器 的 日 志文 件 和 状态 文件 ， 这 些 文件 对 管理 数据 库 有 重要 的 价值 ; 


。 DES 密 钥 文 件 或 服务 器 的 SSL 证 书 与 密 钥 文件 。 


数据 目录 中 的 所 有 数据 库 全 部 由 服务 器 (mysqld) 来 管理 ， 客 户 端 不 直接 操作 数据 。 服 务 器 是 客 
户 使 用 数据 的 唯一 通道 。 


在 MySQL 中 ， 每 个 数据 库 其 实 就 是 在 数据 目录 下 一 个 子 目 录 ，show databases 命 令 相 当 于 列 
出 数据 目录 中 的 目录 清单 。create database db_name 命 令 会 在 数据 目录 下 新 建 一 个 db_name 
的 目录 ， 以 存放 数据 库 的 数据 文件 。 所 以 我 们 也 可 下 面 的 shell 命 令 方 式 来 建立 一 个 空 数 据 

库 : 


% cd datadir 
% mkdir db_name 
% chmod u=rwxygo-rwx db_name 


同 理 ， 删 除数 据 库 drop database db_name 也 就 是 删除 数据 目录 中 一 个 名 为 db_name 的 目录 
及 目录 中 的 数据 表 文 件 。 我 们 也 可 用 shell 这 进行 操作 : 


% cd datadir 
% rm -rf db_name 


比较 shell 方 式 与 drop database 方 式 ，drop database db_name 命 令 不 能 删除 db_name 目 
录 中 创建 的 其 它 非 数据 表 文 件 ; 由 于 InnoDB 是 表 空 间 来 管理 数据 表 ， 所 以 不 能 用 rm 或 
del 命 令 删 除 InnoDB 的 数据 表 。 


3.2. MySQL 数 据 表 在 系统 中 表现 形式 


MySQL 数 据 表 类 型 有 : ISAM 、MylSAM 、MERGE 、BDB、 InnoDB 和 HEAP。 每 种 数据 表 在 
文件 系统 中 都 有 不 同 的 表示 方式 ， 有 一 个 共同 点 就 是 每 种 数据 表 至 少 有 一 个 存放 数据 表 结 构 
定义 的 .fm 文件 。 下 面 介 绍 每 种 数据 表 文件 : 


。 1ISAM 数 据 表 是 最 原始 的 数据 表 ， 有 三 个 文件 ， 分 别 是 : 
.frm， 存 放 数 据 表 的 结构 定义 ; 
.|ISD， 数 据 文件 ， 存 放 数 据 表 中 的 各 个 数据 行 的 内 空 ; 
.ISM， 索 引文 件 ， 存 放 数 据 表 的 所 有 索引 信息 。 
。 MylSAM 数 据 表 是 |ISAM 数 据 表 的 继承 者 ， 也 有 三 个 文件 ， 分 别 是 : 
.frm， 结 构 定义 文件 ; 
.MYD， 数 据 文件 ; 


.MYI， 索 引文 件 。 


MERGE 数 据 表 是 一 个 逻辑 结构 ， 代 表 一 组 结构 完全 相同 的 MylISAM 数 据 表 构成 的 集合 。 
它 在 文件 系统 中 有 二 个 文件 ， 分 别 是 : 


.frm， 结 构 定 义 文件 ; 


.MRG， 构 成 MERGE 表 的 MyISAM 数 据 表 清单 ， 每 个 MyISAM 数 据 表 名 占 一 行 。 也 就 是 说 
可 通过 改变 该 表 的 内 容 来 改变 MERGE 数 据 表 的 结构 。 修 改 前 请 先 刷新 缓存 (flush 
tables)， 但 不 建议 这 样 修改 MERGE 数 据 表 。 


BDB 数 据 表 用 两 个 文件 来 表示 ， 分 别 是 : 


.frm， 结 构 定 义 文件 ; 
.db， 数 据 表 数 据 和 索引 文件 


InnoDB 由 于 采用 表 空 间 的 概念 来 管理 数据 表 ， 所 以 它 只 有 一 个 与 数据 表 对 应 .fm 文件 ， 
同一 目录 下 的 其 它 文件 表示 为 表 空 间 ， 存 储 数 据 表 的 数据 和 索引 。 


HEAP 数 据 表 是 一 个 存在 于 内 存 中 的 表 ， 所 以 它 的 数据 和 索引 都 存在 于 内 存 中 ， 文 件 系统 
中 只 有 一 个 .frm 文 件 ， 以 定义 结构 。 


了 解 MySQL 数 据 表 在 文件 系统 中 表现 形式 后 ， 我 们 可 知道 ， 创 建 、 修 改 或 删除 数据 表 ， 其 实 
就 是 对 这 些 文件 进行 操作 。 例 如 一 些 数据 表 ( 除 InnoDB 和 HEAP 数 据 表 外 )， 我 们 可 直接 在 文件 
系统 中 删除 相应 的 文件 来 删除 数据 表 。 


% cd datadir 
% rm -f mydb/mydb.* 


以 上 命令 可 删除 mydb 数 据 库 中 的 mydb 数 据 表 。 


3.3. 数据 表 了 最 大 尺寸 限制 


在 MySQL 中 影响 数据 表 尺 寸 的 因素 有 很 多 ， 下 面 分 别 进行 介绍 : 
e。 MySQL 数据 表 类 型 的 不 同 对 数据 表 尺 寸 的 限制 : 
o ISAM 数 据 表 中 单个 .ILSD 和 .ISM 文 件 的 最 大 尺寸 为 4G ; 


o MylSAM 数 据 表 中 单个 .MYD 和 .MYI 文 件 的 默认 最 大 尺寸 也 是 4G， 但 可 在 创建 数据 表 
时 用 AVG_ROW_LENGTH 和 MAX_ROWS 选 项 把 这 个 最 值 扩 大 到 800 万 TB。 


o MERGE 数 据 表 的 最 大 尺寸 是 它 的 各 组 成 MylISAM 数 据 表 的 最 大 尺寸 之 和 。 


o BDB 数 据 表 的 尺寸 受 限 于 BDB 处 理 程序 所 允许 的 .db 文件 的 最 大 尺寸 。 这 个 最 大 尺寸 
随 着 数据 表 页 面 尺寸 (编译 时 确定 ) 而 变化 ， 但 即使 是 最 小 的 页 面 尺 寸 (512 字 节 )，.db 
文件 的 最 大 尺寸 也 可 达 2TB 。 


o InnoDB 数 据 表 的 表 空 间 的 最 大 尺寸 是 40 亿 个 页 面 ， 黑 认 的 页 面 尺寸 是 16K， 该 值 可 
在 8K 到 64K 之 间 ， 在 编译 时 确定 。 ee 间 的 最 大 尺 
寸 oo 


操作 系统 对 文件 的 尺寸 限制 ， 一 般 文件 系 ee 导 超 过 2G 的 限制 。 该 约 束 会 
对 数据 库 文件 造成 限制 。InnoDB 数 据 表 可 通过 利用 未 格式 化 硬盘 作为 表 空 间 来 绕 过 该 限 
制 。 


对 于 数据 和 家 引 分 开 两 个 文件 存放 的 数据 表 ， 其 中 任何 一 个 文件 达到 操作 系统 文件 的 最 
大 限制 ， 数 据 库 表 也 就 达到 最 大 尺寸 。 


包含 AUTO_INCREMENT 数 据 列 的 表 受 到 该 数据 列 类 型 最 大 上 限 值 的 限制 。 


由 于 InnoDB 数 据 表 用 表 空 间 来 管理 ， 一 个 表 空 间 可 同时 空 纳 多 个 数据 表 ， 所 以 数据 表 的 
最 大 尺寸 受 系统 文件 和 同一 表 空 间 中 数据 表 空 间 的 约束 。 


3.4. 状态 文件 和 日 志文 件 


在 MySQL 数 据 目 录 中 还 包含 着 许多 状态 文件 和 日 志文 件 ， 这 些 文件 的 文件 名 都 是 以 主机 名 加 


上 相 


关 后 组 来 命名 的 。 下 面 是 这 些 文 件 的 一 个 说 明 列表 : 


Table 3.1. 状态 文件 和 日 志文 件 


文件 类 型 默认 名 文件 内 容 
进程 ID 文件 hostname.pid MySQL 服 务 器 进程 的 ID 
常规 查询 日 志 hostname.log 连接 / 断 开 连接 事件 和 查询 信息 
慢 查 询 日 志 Na 记录 查询 时 间 很 长 的 命令 信息 
slow.log 
| 医 容 的 查询 命令 信 
有 hostname.nnn 人 或 修改 数据 表 结 构 和 内 容 的 查询 命令 
二 进 制 变更 日 志 hostname- 创建 或 修改 数据 表 结 构 和 内 容 的 查询 命令 的 
和 2 bin.nnn 二 进 制 表示 法 
二 进 制 变更 日 志 的 索 hostname- 和 
的 “二 进 制 变更 日 志 ” 
引文 件 bin.index 人 
着 误 日 志 hostname.err 记录 “启动 /关闭 "事件 和 异常 情况 


变更 日 志和 二 进 制 变更 日 志 主 要 用 于 MySQL 数 据 库 服务 器 的 崩溃 恢复 中 ， 由 于 变更 日 志 记 录 
了 数据 库 的 所 有 变更 操作 ， 所 以 可 以 进行 事件 重 放 。 oo 青 参考 相关 数据 库 备份 恢复 章 


节 
0° 


对 于 变更 日 志 ， 我 们 可 用 --log-long-format 选 项 来 让 它 以 扩展 方式 记录 有 关 事 件 。 扩 展 方 


式 可 记录 谁 发 出 查询 和 什么 时 候 发 出 查询 的 信息 。 可 使 我 们 更 好 地 掌握 客户 端的 操作 情况 。 
日 志 记录 着 查询 命令 的 所 有 操作 ， 里 面 可 能 会 有 一 些 敏 感 信息 。 所 以 我 们 要 确保 日 志文 件 的 
安全 。 


3.5. 调整 MySQL 数 据 目录 位 置 


MySQL 数 据 库 的 数据 目录 人 位置， 包括 目 录 里 的 各 种 文件 的 位 置 ) 可 根据 实际 情况 进行 调整 。 调 
整 的 方法 有 两 种 ， 一 种 是 使 用 符号 链接 ; 一 种 用 服务 器 启动 选项 。 下 面 一 个 列表 说 明了 数据 
目录 及 目录 中 文件 各 自 适 宜 采 用 的 方法 : 


Table 3.2. MySQL 数 据 目 录 及 目录 中 文件 位 置 的 调整 方法 


调整 对 象 适用 方法 
整个 数据 目录 启动 选项 和 符号 链接 
数据 库 目 录 符号 链接 
数据 表 符号 链接 
InnoDB 数 据 表 空 间 启动 选项 
PID 文 件 启动 选项 
日 志文 件 启动 选项 


下 面 是 各 种 调整 方法 的 具体 操作 过 程 : 


。 在 调整 MySQL 的 数据 目录 时 ， 要 先 停止 服务 器 ， 再 把 数据 目录 移动 到 新 的 位 置 。 接 着 ， 
我 们 可 选择 在 原来 目录 下 创建 一 个 符号 链接 指向 新 的 位 置 ， 或 者 用 启动 选择 --datadir 指 向 
新 的 数据 目录 。 推 荐 用 创建 符号 链接 的 方法 ， 因 为 如 果 那 个 数据 目录 中 有 my.cnf 文 件 ， 相 
应 的 服务 器 还 能 找到 它 。 

。 数据 库 只 能 存在 于 MySQL 数 据 目 录 中 ， 所 以 只 能 使 用 符号 链接 的 方法 调整 它 的 位 置 。 在 
Linux 系 统 的 操作 步骤 如 : 


1， 关闭 服务 器 ; 

2.， 把 数据 库 目 录 拷 贝 到 新 的 位 置 ; 

3， 删 除 原来 的 数据 库 目 录 ; 

4. 在 原来 的 MySQL 数 据 目 录 中 创建 一 个 同名 符号 链接 指向 新 的 位 置 ; 
5， 重 新 启动 服务 器 。 
在 windows 下 的 操作 方法 不 些 不 同 ， 操 作 方 法 如 下 : 

1. 关闭 服务 器 ，; 

2， 把 数据 库 目 录 移 动 新 的 位 置 ; 


3.， 删除 原来 的 数据 库 目 录 ; 


4. 在 原来 数据 目 De 的 .sym 文 件 ， 在 文件 中 输入 数据 库 新 目录 的 全 路 径 ， 
如 c:\mysql\newdirimydb。 这 个 文件 就 相当 于 Linux 下 的 符号 链接 ; 


5， 重 启 服务 器 。 


为 了 支持 符号 链接 功能 ， 必 须 用 --use- ee links 选 项 启动 服务 器 ; 或 在 选 
项 文件 的 [mysqld] 节 中 添加 use-symbolic-links 选 


MySQL 必 须 是 3.23.16 以 上 版 本 且 是 max 服 务 器 (mysqld-max 或 mysqld-max- 
nt) 。 


。 要 移动 数据 表 ， 必 须 满足 以 下 所 有 条 件 才 行 


o MySQL 的 版 本 必须 是 4.0 或 以 上 的 版 本 ; 

o 操作 系统 必须 有 一 个 可 用 的 realpath() 调 用 ; 

o 移动 的 数据 表 必 须 是 MylSAM 类 型 的 数据 表 。 
在 满足 以 上 所 有 条 件 后 ， 我 们 就 可 把 .MYD 数 据 文 件 和 MYI 索 引文 件 移 到 新 位 置 ， 再 在 原 
来 位 置 创建 两 个 同名 符号 链接 指定 新 的 位 置 。 注 意 ，.frm 定 义 文 件 仍 需 留 在 原来 的 数据 库 
目录 中 。 
如 以 上 条 件 不 能 全 部 满足 ， 最 好 不 要 移动 数据 表 文件 。 否 则 一 旦 你 运行 ALTER TABLE、 
OPTIMIZE TABLE、REPAIR TABLE 语 名 对 移动 过 的 数据 表 进 行 优化 或 修改 ， 这 样 数据 
表 就 会 回 到 原来 的 位 置 ， 使 移动 操作 失效 。 因 为 这 些 命令 的 执行 过 程 是 这 样 的 : 它 会 先 
在 数据 目录 中 创建 一 个 临时 数据 表 并 对 这 个 临时 数据 表 进 行 优化 或 修改 ， 然 后 删除 原来 
的 数据 表 (这 里 是 你 为 了 移动 数据 表 而 创建 的 一 个 符号 链接 )， 再 把 临时 数据 表 更 名 为 原来 
的 数据 表 名 称 。 这 样 一 来 ， 你 移 走 的 数据 表 就 和 这 个 数据 库 完 全 没有 关系 了 。 基 于 以 下 
的 不 稳定 因素 ， 如 无 特殊 必要 ， 不 建议 移动 数据 表 。 
InnoDB 表 空间 是 通过 在 选项 文件 中 使 用 innodb_data_home ei nied oonle ipath 


选项 列 出 InnoDB 表 空间 组 成 文件 清单 的 方法 来 配置 的 ， 所 以 我 们 可 通过 修改 这 些 选项 来 
重新 安置 InnoDB 表 空间 的 组 成 文件 。 步 骤 如 下 : 


o 关闭 服务 器 ; 
o 移动 组 成 表 空 间 的 文件 ; 
o 修改 选项 文件 ， 指 出 组 成 表 空 间 的 文件 的 新 位 置 ; 


o 重启 服务 器 。 


。 状态 文件 和 日 志文 件 的 位 置 可 通过 选项 文件 或 启动 服务 器 时 指定 。 


Chapter 4. MySQL 数 据 库 日 常 管理 


为 了 确保 数据 库 平稳 可 靠 运行 ， 我 们 需 进 行 维护 和 管理 ， 一 位 数据 库 管理 员 的 职责 。 
下 面 分 几 个 专题 分 别 介绍 


. 数据 库 安 全 管理 


ee 用 户 和 密码 来 控制 用 户 对 数据 库 的 访问 ， 当 我 们 新 安装 了 一 个 数据 库 服 务 
器 时 ，MySQL 的 权限 表 设置 是 很 不 安全 ， 它 默认 允许 任何 人 不 需要 密码 就 可 访问 数据 库 。 所 
以 我 们 安装 好 服务 器 后 第 一 件 需要 做 的 就 是 设置 用 户 密 码 。 


在 MySQL 中 的 mysql 数 据 库 的 user 数 据 表 中 存 有 用 户 的 帐号 信息 ， 在 初始 状态 下 已 存在 root 和 
一 些 匿名 用 户 ， 且 所 有 用 户 都 没有 设置 密码 。 该 数据 表 的 这 些 用 户 信息 是 通过 一 个 
mysql_install_db 脚 本 安装 的 。 该 表 的 主要 列 有 : 


e。 User， 连 接 数 据 库 的 用 户 名 。 

e。 Host， 人 允许 连接 到 数据 库 服 务 器 的 主机 名 ，"%" 通 配 符 代 表 所 有 主机 。 
e。 Password， 连 接 密码 ， 已 加 密 。 

。 其 它 权限 列 ， 以 “Y" 或 5N?" 标 识 是 否 有 效 。 


在 这 种 状态 下 的 数据 库 是 极 不 安全 的 ， 我 们 可 用 以 下 命令 轻 多 地 访问 数据 库 : 


% mysql -h localhost -u root # 通 过 本 地 主机 ，root 用 户 访 问 ， 不 需要 密码 验证 
% mysql -h localhost # 通 过 本 地 主机 ， 匿 名 用 户 访 问 ， 不 需要 密码 验证 


设置 MySQL 用 户 帐 号 密码 的 方法 有 三 种 : 
。 使 用 mysqladmin 程 序 : 


% mysqladmin -h localhost -u root password "password"  ” # 设 置 在 本 地 以 root 身 分 登录 的 密码 
% mysqladmin -h remote -u root password "password" # 设 置 远程 主机 以 root 身 分 登录 的 密码 


Eee 和 和 和 和 和 和 和 和 ee 和 有 
在 初始 设置 时 ， 这 两 条 语句 都 要 运行 ， 以 确保 数据 库 本 地 访问 和 网 络 访问 的 安全 。 


e。 通过 set password 这 条 SQL 语 名 设置 : 


mysql> set password for 'root'@'localhost' = password('password'); 
mysql> set password for 'root'@'remote' = password('password'); 


e。 直接 修改 user 权 限 表 : 


mysql> use mysql; 
mysql> update user set password=password('password') where user="'root'; 
mysql> flush privileges; # 重 载 权限 表 ， 使 修改 马上 生效 


MySQL 使 用 驻 留 在 内 存 中 的 权限 表 拷 贝 来 进行 访问 控制 ， 当 使 用 mysqladmin 和 set 
password 设 置 密码 ，MySQL 会 监察 到 权限 表 已 被 修改 ， 它 自动 重 载 该 表 。 而 用 Update 的 
方式 ，MySQL 就 监察 不 到 变化 ， 需 手动 用 flush privileges 命 令 刷新 内 存 中 的 权限 表 ， 以 

使 它 马 上 生效 。 


为 root 用 户 设 置 密 码 后 ， 如 果 需 以 root 身 份 连接 数据 库 ， 就 需 验 证 密码 。 我 们 可 用 以 下 语句 连 
接 数 据 库 : 


% mysql -u root -p 
Enter password: # 输 入 root 的 密码 


在 User 表 中 ，Uuser 列 为 空 的 为 匿名 用 户 。 它 也 是 没有 密码 的 ， 我 们 需 为 它们 设置 一 个 密码 ， 或 
干脆 把 它们 删除 。 在 windows 系 统 上 的 本 地 匿名 用 户 帐号 和 root 用 户 有 着 同样 的 权限 ， 这 是 一 
个 很 大 的 安全 漏洞 。 应 该 把 它 删 除 或 把 权限 齐 弱 。 


4.2. 服务 器 的 启动 和 关闭 
在 Linux 和 windows 平 台 下 MySQL 服 务 器 的 启动 方式 有 很 大 不 同 ， 这 里 将 分 开 介 绍 : 


e。 Linux 平 台 : 


Linux 平 台 下 ， 每 一 个 进程 都 需 由 一 个 用 户 来 运行 ， MySQL 最 好 不 要 以 root 用 户 来 运行 。 
我 们 可 创建 一 个 mysql 用 户 和 和 mysql 组 ，MySQL 服 务 器 程序 目录 和 数据 目录 由 这 个 用 户 和 
组 所 拥有 ， 其 它 用户 没 有 任何 权限 。 以 mysql 用 户 来 运行 MySQL 服 务 器 。 


% mysqld --user=mysql # 即 使 以 root 用 户 执行 该 命令 ，MySQL 数 据 库 还 是 会 与 nysd1 用 户 ID 关 联 。 


为 了 使 服务 器 在 系统 启动 时 自动 以 mysql 用 户 运 行 ， 需 配置 my.cnf 配 置 文件 ， 把 
User=mysql 包 含 在 [mysqld] 段 中 。 


关闭 服务 器 可 用 % mysql.server stop 或 % mysqladmin -u root -p shutdown 
。 Windows 和 平台 : 
手动 方式 : 直接 运行 cmysqld 命 令 。 


作为 服务 方式 : 运行 c:\mysqld-nt --install 命 令 ， 把 mysqld-nt 安 装 为 windows 的 服务 ， 此 
后 ， 每 当 Windows 启 动 时 ， 它 就 会 自动 运行 。mysqld-nt 是 一 个 支持 命名 管道 的 MySQL 服 
务 器 。 运 行 c:\mysqld-nt --remove 可 把 服务 删除 。 手 动 启动 关闭 服务 的 方法 是 运行 c:\net 


start mysql 和 c:\net stop mysql 命 令 。 


连接 故障 恢复 


当 由 于 误 删 人 ， 我 们 就 不 能 通过 套 接 字 连接 服务 器 。 这 时 我 们 
可 通过 tcp/ip 来 连接 服务 器 ， 要 建立 一 个 tcp/ip 连 接 ， 需 用 127.0.0.1 代 替 locahost 作 为 -h 参 数 的 
值 来 连接 服务 器 。 如 : 


% mysqladmin -h 127.0.0.1 -u root -p shutdown # 关 闭 服务 器 再 重启 会 重建 套 接 字 


当 我 们 因为 忘记 root 用 户 密码 而 不 能 连接 服务 器 时 ， 重 设置 密码 的 步骤 如 : 


we 
入 磁盘 。 如 果 服 务 器 没有 响应 ， 我 们 可 用 % kill -9 PID 来 强制 删除 进程 ， 但 不 建议 这 
做 。 这 时 内 存 中 的 数据 不 会 写 入 磁盘 ， kd 。 如 果 你 是 用 mysql_ 1 
动 MySQL 服 务 器 的 ， 这 个 脚本 会 监控 服务 器 的 运行 情况 并 在 它 被 终止 时 重启 服务 器 ， 所 
以 如 需 关 闭 服务 器 ， 要 先 终止 该 进程 ， ea 程 。 


。 接着 用 --skip_grant-tables 启 动 服务 器 。 这 时 MySQL 服 务 器 将 不 使 用 权限 表 对 连接 操作 进 
行 验证 。 你 就 可 在 不 提供 root 密 码 的 情况 下 连接 上 服务 器 ， 并 获得 root 的 权限 。 这 样 你 就 
可 用 上 面 介绍 的 修改 密码 的 方法 重 设 root 用 户 的 密码 。 注 意 : 连接 上 服务 器 后 ， 要 马上 执 
行 flush privileges 命 令 ， 使 权限 表 读 入 内 存 并 生效 ， 以 阻止 其 他 的 连接 。 该 语句 还 重新 激 
活 grant 语 如， 在 MySQL 服 务 器 不 使 用 权限 表 时 ，grant 语 名 被 禁用 。 


@ 修改 完 root 用 户 密码 后 ， 我 们 就 可 关闭 服务 器 并 重启 使 所 有 配置 正常 运作 。 


4.4. MySQL 用 户 帐 号 管理 


CS 户 帐 号 管理 主要 用 grant( 授 权 ) 和 revoke( 撤 权 ) 两 个 SQL 指令 来 管理 。 这 两 个 指令 实 
质 是 通过 操作 user( 连 接 权限 和 全 局 权限 )、db( 数 据 库 级 权限 )、tables | 、 
columns_priv( 数 据 列 级 权限 ) 四 个 权限 表 来 分 配 权限 的 。host 权 限 表 不 受 这 两 个 指令 影响 。 下 
面 将 会 详细 介绍 用 户 权限 管理 的 内 容 。 


e。 GRANT 语法 说 明 : 


GRANT privileges (columns) #privileges 表 示 授 予 的 权限 ，columns 表 示 作 用 的 列 ( 可 选 ) 
ON what # 设 置 权 限 级 别 ， 全 局 级 、 数 据 库 级 、 数 据 表 级 和 数据 列 级 
TO account # 权 限 授予 的 用 户 ， 用 "user_name"@"host_name" 这 种 用 户 名 、 
IDENTIFIED BY 'password' # 设 置 用 户 帐 号 密码 
REQUIRE _ encryption requirements # 设 置 经 由 SSL 连 接 帐 号 


WITH grant or resource management options;  # 设 置 帐 号 的 管理 和 资源 (连接 服务 器 次 数 或 查 





mysql>grant all on db.* to 'test'@'localhost' identified by 'test'; 


上 例 运行 后 的 效果 是 ，test 用 户 只 能 通过 ‘test 密码 从 本 机 访问 db 数据 库 


mysql>grant all on db.* to 'test'@'%' identified by 'test'; 


上 例 运 行 后 的 效果 是 ，test 用 户 可 通过 ‘test' 密 码 从 任意 计算 机 上 访问 db 数据 库 。'%' 代 表 
任意 字符 ，'_' 代 表 一 个 任意 字符 。 主 机 名 部 份 还 可 以 是 IP 地 址 。 


如 果 没 有 给 定 主机 部 份 ， 则 默认 为 任意 主机 ， 也 就 是 'test' 和 'test'@'%' 是 等 价 的 。 


e。 Table 4.1. 访问 权限 表 


权限 | 权限 说 明 | 

| 

CREATE TEMPORARY TABLES | 创建 临时 数据 表 | 
EXECUTE | 执行 存储 过 程 ( 暂 不 支持 ) | 

FILE | 操作 系统 文件 | 

GRANT OPTION | 可 把 本 帐号 的 权限 授予 其 它 用 户 | 
LOCK TABLES | 锁定 指定 数据 表 | 

PROCESS | 查看 运行 着 的 线程 信息 | 

RELOAD | 重新 加 载 权 限 表 或 刷新 日 志 及 缓冲 区 | 
REPLICATION CLIENT | 可 查询 主 / 从 服务 器 主机 名 | 
REPLICATION SLAVE | 运行 一 个 镜像 从 服务 器 
SHOW DATABASES | 可 运行 SHOW DATABASES 指 令 | 
SHUTDOWN | 关闭 数据 库 服务 器 | 

SUPER | 可 用 kil1 终 止 线程 以 及 进行 超级 用 户 操作 | 
ALTER | 可 修改 表 和 索引 的 结构 | 

CREATE | 创建 数据 库 和 数据 表 | 

DELETE | 删除 数据 表 中 的 数据 行 | 

DROP | 删除 数据 表 和 数据 行 | 

INDEX | 建立 或 删除 索引 | 

INSERT | 插入 数据 行 | 

REFERENCES | (暂时 不 支持 ) | 

SELECT | 查询 数据 行 | 

UPDATE | 更 新 数据 行 | 

ALL | 所 有 权限 ， 但 不 包括 GRANT。 | 

USAGE | 无 权限 权限 | 





。 Table 4.2. 权限 作用 范围 (由 ON 子 句 设置 ) 


| 权限 限定 符 | 作用 范围 | 

| el| 

| ON *.* | 全 局 级 权限 ， 作 用 于 所 有 数据 库 | 

| ON * | 全 局 级 权限 ， 若 未 指定 默认 数据 库 ， 其 作用 范围 是 所 有 数据 库 ， 否 则 ， 其 作用 范围 是 当前 数据 库 | 
| ON db_name.* | 数据 库 级 权限 ， 作 用 于 指定 数据 库 里 的 所 有 数据 表 | 

| ON db_name .tb1l_name | 数据 表 级 权限 ， 作 用 于 数据 表 里 的 所 有 数据 列 | 

| ON tbl_name | 数据 表 级 权限 ， 作 用 于 默认 数据 库 中 指定 的 数据 表 里 的 所 有 数据 列 | 


。 USAGE 权 限 的 用 法 : 修改 与 权限 无 关 的 帐户 项 ， 如 : 


mysql>GRANT USAGE ON *.* TO account IDENTIFIED BY 'new_password'; # 修 改 密 码 
mysql>GRANT USAGE ON *.* TO account REQUIRE SSL; # 启 用 SSL 连 接 
mysql>GRANT USAGE ON *.* TO account WITH MAX_CONNECTIONS_PER_HOUR 10; # 人 设置 资源 


。 拥有 WITH GRANT OPTION 权 限 的 用 户 可 把 自己 所 拥 用 的 权限 转 授 给 其 他 用 户 ， 如 : 


mysql>GRANT ALL ON db.* TO 'test'@'%' IDENTIFIED BY 'password' WITH GRANT OPTION; 
这 样 test 用 户 就 有 权 把 该 权限 授予 其 他 用 户 。 


。 限制 资源 使 用 ， 如 : 


mysql>GRANT ALL ON db.* TO account IDENTIFIED BY 'password' WITH MAX_CONNECTIONS_PER._ 








允许 account 用 户 每 小 时 最 多 连接 20 次 服务 器 ， 每 小 时 最 多 发 出 200 条 查询 命令 (其 中 更 新 
命令 最 多 为 50 条 ) 


默认 都 是 零 值 ， 即 没有 限制 。FLUSH USER_RESOURCES 和 FLUSH PRIVILEGES 可 对 
资源 限制 计数 器 清 零 。 


。 REVOKE 语 法 说 明 : 


mysql>REVOKE privileges (columns) ON what FROM account ; 


示例 : 


mysql>REVOKE SELECT ON db.* FROM 'test'@'localhost'; 
删除 test 帐 号 从 本 机 查询 db 数据 库 的 权限 


REVOKE 可 删除 权限 ， 但 不 能 删除 帐号 ， 即 使 帐号 已 没有 任何 权限 。 所 以 User 数 据 表 里 
还 会 有 该 帐号 的 记录 ， 要 彻底 删除 帐号 ， 需 用 DELETE 命 令 删 除 User 数 据 表 的 记录 ， 如 : 


% mysql -u root -p 

mysql>use mysql 

mysql>DELETE FROM user where User='test' and Host='localhost'; 
mysql fulsh privileges; 


REVOKE 不 能 删除 REQUIRE 和 资源 占用 的 配置 。 他 们 是 要 用 GRANT 来 删除 的 ， 如 : 


GRANT USAGE ON *.* TO account REQUIRE NONE; # 删 除 account 帐 号 的 SSL 连 接 选 项 
GRANT USAGE ON *.* TO account WITH MAX_ CONNECTIONS PER _ HOUR © MAX _ QUERIES PER_ HOUR 0 


加 i: 





4.5. 日 志文 件 管 


有 关 MySQL 的 日 志文 件 前 面 章节 已 简要 讨论 过 了 ， 主 要 有 四 种 日 志文 件 ， 分 别 是 常规 查询 日 
志 、 慢 查询 日 志 、 变 更 查询 日 志和 二 进 制 变更 日 志 。 这 些 日 志文 件 的 创建 需 在 启动 服务 器 时 
用 选项 指定 。 


Table 4.3. 日 志 启 动 选 项 


启动 选项 
--log[=file_name] 
--log-bin[=file_namel] 
--log-bin-index=file_name 
--log-update[=file_namel] 
--log-slow-queries[=file_namel] 
--log-isam[=file_name] 


--log-long-format 


BDB 和 InnoDB 数 据 表 的 日 志文 件 会 自动 创建 不 用 指定 


存放 路 径 。 
Table 4.4. BDB 和 InnoDB 数 据 表 日 志 选 项 
启动 选项 
--bdb-logdir=dir_name 
--innodb-log_arch_dir=dir_ name 


--innodb log_group_home dir=dir_name 


激活 日 志 


常规 日 志文 件 


二 进 制 变更 日 志文 件 
二 进 制 变 更 日 志文 件 索引 文件 
变更 日 志文 件 


慢 查 询 日 志文 件 
ISAM/MyISAM 日 志文 件 


设置 慢 查询 日 志和 变更 日 


志 的 格式 


选项 。 但 可 用 以 下 选项 指 时 日 志文 件 的 


存放 BDB 日 志文 件 的 位 置 
存放 InnoDB 日 志文 件 的 归档 目录 
存放 InnoDB 日 志文 件 的 位 置 


MySQL 日 志文 件 选项 可 在 mysqld 和 mysqld_safe 脚 本 中 使 用 ， 也 可 在 选项 文件 my.cnf 的 


[mysqld] 中 使 用 。 推 荐 在 选 
的 。 


项 文件 中 使 用 ， 因 为 每 次 启动 服务 器 


的 日 志 选 项 基本 上 都 是 一 致 


志 的 刷新 可 用 mysqladmin flush- es 命令 或 flush logs 语 名 实现 。 另 外 ， 对 MySQL 服 务 器 发 


送 一 条 SIGHUP 信 号 也 会 刷新 日 志 


日 普 误 


错误 日 志 
为 hostname.err， 也 可 通 
mysqld 程 序 启动 服务 器 


日 志和 DBD/InnoDB 日 志 记 不 、 


专 记 FIVSOD 系统 的 论断 和 出 错 信 息 
过 --err-log 或 选项 文件 的 err-log 语 名 指定 
ss， 错误 信息 会 直接 输出 到 输出 设备 ， 也 就 是 屏幕 。 但 我 们 可 用 重 定向 


不 能 用 以 上 方法 刷新 。 


， 由 mysqld_safe 脚 本 创建 ， 文 件 名 默认 
定 另 外 的 名 字 。 如 果 直 接 用 


方法 把 错误 信息 输出 到 其 它 地 方 ， 如 把 错误 信息 输出 到 /var/log/mysql.err 文 件 中 ， 可 以 执行 以 


下 语句: 


% mysqld > /var/log/mysql.err 2>&1 & 


在 windows 平 台 下 ，MySQL 服 务 器 
允许 另外 指定 错误 日 志文 件 名 。 如 在 
把 诊断 信 ， 


console 选 项 不 起 作用 。 


息 输出 到 控制 台 窗 口 而 不 创建 错误 日 志 


默认 把 诊断 信息 写 到 数据 目录 的 mysql.err 文 件 中 ， 并 且 不 
启 ek 


时 给 出 了 --console 选 项 ， 则 MySQL 会 


。 但 如 MySQL 是 作为 一 个 服务 运行 ， 则 -- 


4.5.1. 日 志 失 效 处 理 


在 服务 器 正常 运行 中 ， 会 产生 大 量 的 日 志文 件 。 我 们 要 对 这 些 日 志文 件 进行 失效 管理 ， 以 节 
省 磁 瘟 空间 和 方便 查询 。 进 行 日 志 失 效 处 理 的 方式 主要 有 以 下 几 种 : 


e 日 志 轮 转 。 该 方法 适用 于 常规 查询 日 志和 慢 查 询 日 志 这 些 文件 名 国定 的 日 志文 件 ， 在 日 
志 时 ， 应 进行 日 志 刷 新 操作 (mysqladmin flush-logs 命 令 或 flush logs 语 名)， 以 确保 缓 
存在 内 存 中 的 日 志 信 息 写 入 磁盘 ; 


日 志 轮 转 的 操作 过 程 是 这 样 的 : 第 一 次 轮转 时 ， 把 log 更 名 为 log.1， 然 后 器 再 创建 一 
个 新 的 log 文 件 ， 在 第 二 轮转 时 ， 再 把 log.1 更 名 为 log.2， ee ， 然 后 服务 器 
再 创建 一 个 新 的 log 文 件 。 如 此 循环 ， 创 建 一 系列 的 日 志文 件 。 当 到 达 日 志 轮 转 失效 位 置 
时 ， 下 次 轮转 就 不 再 对 它 进行 更 名 ， 直 接 把 最 后 一 个 日 志文 件 覆 盖 掉 。 例 如 : 如 果 每 天 
进行 一 次 日 志 轮 转 并 想 保 留 最 后 7 天 的 日 志文 件 ， 就 需要 保留 log.1--|og.7 共 七 个 日 志 3 
件 ， 等 下 次 轮转 时 ， 用 log.6 禾 盖 原 来 的 log.7 成 新 的 log.7， 原 来 的 log.7 就 自然 失效 。 下 面 
是 一 个 失效 处 理 的 shell 脚 本 ， 以 供 参 考 : 


#!1/bin/sh 
# shell script --- rotate log.sh 


if [ $# -ne 1 ]; then 
echo "Usage: $0 logname" 1&gt;&2 
exit 1 

if 


logfile=$1 


mv $logfile.6 $logfile. 
mv $logfile.5 $logfile. 
mv $logfile.4 $logfile. 
mv $logfile.3 $logfile. 
mv $logfile.2 $logfile. 
mv $logfile.1 $logfile. 
mv $logfile $logfile.1 
mysqladmin -u flush -pflushpass flush-logs # 执 行 hysqladmin flush-logs 会 打开 一 个 日 志 : 


ss 3 


该 脚本 以 日 志文 件 名 为 和 参数， 执行 方法 如 下 : 


NOwOOAV 





% rotate log.sh /usr/local/mysql/data/log 


注意 ， 脚 本 中 的 mysqladmin 命 令 是 带 有 -U 和 -p 参 数 的 ， 因 为 我 们 进行 日 志 刷 新 时 需 连 接 
服务 器 。 为 确保 安全 eo ， 密码 为 flushpass。 该 用 户 只 有 日 志 刷 新 
的 权限 (reload 权 限 )。 创 建 该 用 户 的 语句 如 下 


GRANT RELOAD ON *.* TO 'flush'@'localhost' IDENTIFIED BY 'fulshpass'; 


设置 好 后 ， 我 们 就 可 利用 系统 的 自动 处 理 机 制定 期 运行 该 脚本 以 生成 轮转 日 志 。 在 Linux 

统 上 的 MySQL 发 行 版 中 带 有 一 个 用 来 安装 mysql-log-rotate 日 志 轮 转 脚本 的 logrotate 工 
， 如 用 RPM 安装 , 则 在 /usrshare/mysql 目 录 ， 如 用 二 进 制 方式 安装 , 则 在 MySQL 安 装 目 

人 目录 ， 如 用 源码 安装 ， 则 在 安装 目录 的 share/mysq| 目 录 中 。 


在 Windows 平 台 下 ， 不 能 在 线 更 名 ， 需 停 掉 服务 器 ， 再 进行 。 下 面 是 一 个 进 志 更 名 的 
批 处 理 文件 : 
@echo off 
REM Script name : rotate log.bat 
if not "%1" == "" goto ROTATE 
Qecho Usage: rotate log logname 
goto DONE 
:ROTATE 


set logfile=%1 

erase %logfile%.7 

rename %logfile%.6 %logfile%. 
rename %logfile%.5 %logfile%. 
rename %logfile%.4 %logfile%. 
rename %logfile%.3 %logfile%. 
rename %logfile%.2 %logfile%. 
rename %logfile%.1 %logfile%. 
rename %logfile% %]logfile%.1 
:DONE 


No 上 wo AVI 


该 脚本 的 执行 方法 如 下 : 


ci:Nrotate_1og c:\mysql\data\log 


ee 于 失效 处 理 。 该 方法 将 定期 删除 超过 给 定时 间 的 日 志文 件 ， 适 用 
于 变更 日 志和 二 进 制 日 志 等 文件 名 用 数字 编号 标识 的 日 志 Ss 下 面 是 一 个 用 Perl 写 成 的 
处 理 脚 本 : 


#!/UusSr/bin/perl -w 


# Script name: expire_ log.pl 
# Usage: expire_ log.pl logfile ... 


USe strict 
die "Usage: $0 logfile ...\n" if Q@ARGV == 0; 
my $max_allowed age = 7; #max allowed age in days 
foreach my $file (QARGV) #chack each argument 
unlink ($file) if -e $file && -M $file &gt;= $max_allowed age; 


} 
exit(0); 


该 脚本 需 提供 一 个 将 被 轮转 的 日 志文 件 名 作为 参数 ， 如 : 


% expire_log.plL /usr/local/mysql/data/log.[0-9]* 


在 给 脚本 参数 时 请 小 心 ， 如 给 出 * 为 参数 ， 则 会 删除 目录 中 所 有 更 新 时 间 大 于 7 天 的 
文件 。 


e。 镜像 机 制 。 把 日 志文 件 镜像 到 所 有 的 从 服务 器 上 。 要 使 用 镜像 机 制 ， 你 必须 知道 主 服务 
器 有 多 少 个 从 服务 器 ， 哪 些 正在 运行 ， 并 需 依次 连接 每 一 个 从 服务 器 并 发 出 show slave 
status 语 名 以 确定 它 正 处 理 主 服务 器 的 哪个 二 进 制 日 志文 件 (语句 输出 列表 的 
Master Log_File 项 )， 只 有 所 有 的 从 服务 器 都 不 会 用 到 的 日 志文 件 才 能 删除 。 删 除 方法 是 
在 主 服 务 器 上 发 出 以 下 语句 : 


mysql> PURGE MASTER LOGS TO 'Jast_ log.xx'; 


上 面 语句 中 的 last_log.xx 是 所 有 从 服务 器 已 处 理 的 最 小 编号 日 志文 件 。 


4.6. MySQL 服 务 器 的 一 些 优化 配置 


e 服务 器 的 监听 端口 设置 


o TCP/IP 端 口 3306 是 MySQL 服 务 器 默认 的 网 络 监听 端口 ， 如 用 --skip-networking 选 项 
启动 服务 器 ， 则 不 监听 TCP/IP 端 口 。 可 用 --port 端 口 另 行 指定 一 个 监听 端口 。 如 服务 
器 主机 有 多 个 IP， 还 可 用 --bind-address 选 项 对 服务 器 在 监听 客户 连接 时 使 用 的 IP 地 
址 进行 设 定 。 

o 在 UNIX 系 统 上 ，MySQL 可 在 一 个 UNIX 域 套 接 字 文 件 上 监听 有 无 本 地 客户 在 试图 以 
localhost 为 主机 名 进行 连接 。 默 认 的 套 接 字 文件 是 /tmp/mysql.sock， 可 用 --socket 选 
项 指定 另外 一 个 套 接 字 文件 。 

o 在 基于 NT 的 Windows 平 台 上 ， 有 -nt 的 MySQL 服 务 器 都 支持 命名 管道 。 默 认 的 命名 管 
道 是 MySql， 可 用 --socket 选 项 另行 指定 。 


。 启用 或 禁用 LOAD DATA 语 句 的 LOCAL 能 
o 可 在 MySQL 服 务 器 编译 时 ， 用 configure 脚 本 的 --enable-local-infile 或 --disable-local- 
infile 选 项 把 LOAD DATA 语 和 句 的 LOCAL 能 力 设置 为 启用 或 禁用 ; 


o 在 MySQL 服 务 器 启动 是 ， 可 以 用 --local-infile 或 --disable-local-infile 选 项 来 启用 或 禁 
用 服务 器 的 LOCAL 能 力 (在 MySQL 4.0.2 之 前 的 版 本 里 ， 要 用 --local-infile=0 来 禁用 


它 )。 


如 果 在 服务 器 端 禁用 了 LOCAL 的 能 力 ， 则 客户 端 就 不 能 使 用 该 功能 ; 如 服务 器 启用 了 
LOCAL 的 能 力 ， 客 户 端 默认 也 是 禁止 使 用 的 ， 但 可 用 mysql 程 序 的 --local-infile 选 项 启用 


它 。 


。 国际 化 和 本 地 化 ， 国 际 化 是 指 软件 能 够 在 世界 多 个 国家 地 区 使 用 ， 而 本 地 化 则 是 指 可 从 
国际 化 软件 中 选择 一 套 适 合 本 地 区 的 语言 和 习惯 的 设置 来 使 用 。 在 MySQL 中 的 国际 化 和 
本 地 化 设置 有 以 下 几 方 面 内 容 : 


。 时 区 ， 如 果 时 区 设置 不 对 ， 则 服务 器 显示 的 时 间 将 会 和 当地 时 间 有 冲突 。 设 置 方法 
可 通过 mysqld_safe 脚 本 的 --timezone 选 项 来 设置 ， 但 最 好 还 是 在 选项 文件 里 设置 ， 
如 : 


[mysqld_safe] 
timezone=US/Central 


o 配置 显示 信息 的 语言 ，MySQL 能 用 多 种 语言 来 显示 诊断 信息 与 出 错 信息 ， 默 认 是 英 
语 。 查 看 share/mysql 目 录 下 有 几 个 以 语言 名 称 作 为 目录 名 的 目录 就 可 知道 有 哪些 语 
言 可 供 选择 。 可 用 --language 局 动 选项 来 指定 语言 ， 如 -- 
language=/usr/local/mysql/share/mysql/french 。 


o 配置 服务 器 的 字符 集 ， MySQL 支 持 多 种 字符 集 ， 可 在 share/mysql/charsets 目 录 下 查 
询 支 持 的 字符 集 ， 也 可 用 show variables like 'character_sets' 来 显示 支持 的 字符 集 清 
单 。MySQL 把 latin1 作 为 默认 的 字符 集 。 可 在 编译 时 用 --with-charset 指 定 另 外 一 个 字 
符 集 为 默认 字符 集 。 如 要 增加 另外 的 字符 集 支持 ， 可 用 --with-extra-charasets 选 项 进 
行 添加 。 如 : 


% ./configure --with-extra-charsets=]latini1,gb2312,big5 


--With-extra-charsets 有 两 个 特殊 的 选项 ， 一 个 是 all， 代 表 所 有 可 用 字符 集 ; 一 个 是 
complex， 代 表 所 有 的 复杂 字符 集 ( 包 括 多 字 节 字符 集 和 有 特殊 排序 规则 的 字符 集 )。 
服务 器 启动 时 ， 使 用 默认 字符 集 ， 如 需 指定 另外 的 字符 集 ， 需 用 --default-character- 


set 选 项 指明 。 


在 MySQL 4.1 以 前 ， 如 果 在 创建 好 数据 表 后 改变 服务 器 的 默认 字符 集 ， 就 需 对 索引 
重新 排序 才能 保证 索引 键 值 能 够 正确 反映 出 数据 表 记 录 在 新 字符 集 下 的 排列 顺序 。 
重新 排序 的 操作 命令 如 下 : 


% myisamchk --recover --quick --set-character-set=gb2312 # 在 执行 该 语句 需 关 闭 用 
也 可 用 : 

% mysqlcheck --repair --quick # 不 需 关闭 服务 器 ， 适 用 
或 者 用 : 

mysql> REPLACE TABLE ... QUICK; 


sa: 


在 客户 端 ， 可 用 --default-character-set 选 项 指定 客户 程序 使 用 的 字符 集 。-- 
character-sets-dir 选 项 可 指出 字符 集 文 件 的 安装 目录 。 





。 升级 数据 表 到 4.1， 支 持 多 字符 集 数 据 表 。 步 骤 如 下 : 


1. 用 mysqldump 程 序 备份 数据 库 : 


% mysqldump -p -u root --all-databases --opt &gt; dumpfile.sql 
--all-databases 选 项 的 作用 是 转 储 所 有 数据 库 ; 
- -Opt 选 项 的 作用 是 对 转 储 文件 进行 优化 。 


2， 关 闭 服务 器 ， 升 级 MySQL 服 务 器 软件 到 4.1 版 。 


3. 用 备份 文件 重新 加 载 数据 表 : 
% mysql -p -u root &lt; dumpfile.sql 
这 样 ， 字 符 集 信息 就 被 分 配 到 每 一 个 数据 列 中 ， 此 后 ， 即 使 服务 器 改变 了 默认 的 字符 


集 ， 各 数据 列 的 字符 集 也 不 会 改变 。 当 以 后 修改 某 个 数据 列 的 字符 集 时 ， 服 务 器 会 自动 
重 索引 ， 以 反映 最 新 变化 。 


配置 InnoDB 表 空间 。|InnoDB 表 空间 在 逻辑 上 是 一 个 连接 的 存储 区 域 ， 但 实际 上 是 由 一 个 
或 多 个 磁盘 文件 组 成 。 这 些 文件 可 以 是 普通 的 文件 ， 也 可 以 是 一 个 未 格式 化 的 原始 硬盘 
分 区 。InnoDB 表 空间 通过 一 系列 的 配置 选项 来 设置 ， 其 中 最 重要 的 有 以 下 两 个 : 


为 确保 服务 器 每 次 启动 时 都 能 调用 同样 的 选项 ，InnoDB 的 选项 最 好 存放 到 选 文件 中 。 下 
面 是 一 个 例子 : 


innodb_data_home_dir = 

innodb_data_file_ path=/usr/loca/mysql/data/idbdata1:10M:autoextend:max:100M 
说 明 : 

InnoDB 表 空间 文件 默认 存放 到 了 MySQL 的 数据 目录 中 ， 名 字 叫 idbdatal ; 

文件 长 度 为 19M ; 

可 自动 扩展 ， 以 8M 为 步 长 扩展 ， 如 有 多 个 数据 文件 ， 只 允许 最 后 一 个 文件 可 自动 扩展 ; 

规定 了 最 大 的 可 扩展 尺寸 为 109M 。 


o innodb data_home_dir， 设 置 InnoDB 表 空间 各 组 成 文件 的 父 目 录 ， 如 果 没 有 指出 ， 
则 默认 是 MySQL 的 数据 目录 。 


o innodb_data file path， 描 述 lInnoDB 主 目录 中 各 有 关 文 件 ， 包 括 文件 名 ， 文 件 长 度 
和 一 些 选项 。 各 文件 以 分 号 分 隔 ， 各 组 成 文件 长 度 至 少 为 10M 。 


把 选项 写 入 选项 文件 后 ， 启 动 服务 器 就 可 自动 创建 和 初始 化 InnoDB 表 空间 。 
用 


利用 原始 磁盘 分 区 作为 InnoDB 表 空间 可 创建 一 个 非常 大 的 表 空 间 ， 不 受 操 作 系 统 单 文件 
最 大 容量 的 限制 。 并 且 能 有 效 减 少 磁盘 碎片 的 产生 。 要 使 用 原始 磁盘 分 区 ， 需 作 如 下 配 
置 


o 首先 ， 要 进行 初始 化 ， 在 选项 文件 的 [mysqld] 中 配置 : 


innodb_data_home_dir= 
innodb_data_file_path=/dev/hda1:10Gnewraw # 初 始 化 /dev/hdali 这 个 10G 容 量 的 分 区 


局 动 服务 器 ， 服 务 器 会 对 这 个 10G 的 分 区 进行 初始 化 。 


o 接着 ， 关 闭 服 务 器 ， 修 改 配 置 文件 ， 把 newraw 改 为 raw， 如 : 


innodb_data_home_dir= 
innodb_data_file path=/dev/hda1:10Graw 


重新 启动 服务 器 ，MySQL 就 会 以 读 / 写 方式 使 用 该 表 空 间 了 。 在 windows 平 台 上 配置 
InnoDB 表 空间 时 ，windows 路 径 名 中 的 反 斜 本 可 以 写成 单个 的 斜 线 字 符 (/)。 也 可 写成 两 
个 反 斜 枉 (。 如 


innodb_data_home_dir= 
innodb_data_file_path=c:/mysql/data/ibdata1:10M;d:/ibdata2:20M 


默认 情况 下 ，InnoDB 的 日 志文 件 会 存储 在 MySQL 的 数据 目录 ， 文 件 名 以 ib 开 头 。 一 旦 完 
成 InnoDB 表 空间 kh ， 就 不 能 改变 组 成 文件 的 大 小 ， 但 可 通过 添加 数据 文件 或 设置 

自动 扩展 来 增加 表 空 间 容 量 。 如 需 通过 增加 文件 的 方法 扩大 表 空 间 的 容量 ， 可 按 以 下 步 
又 进行 : 


1， 关 闭 正在 运行 的 MySQL 服 务 器 


2， 如 果 InnoDB 表 空间 的 最 后 一 个 组 成 文件 是 可 自 扩 展 的 ， 就 要 先 把 它 改变 成 一 个 国定 
长 度 文 件 才 能 把 另 一 个 文件 添加 到 它 后 面 。 方 法 是 先 计 算出 该 文件 的 近似 大 小 ， 重 
新 设置 ， 如 : 


innodb_data_file_path=ibdata1l:100M:autoextend 
改 成 : 
innodb_data_file path=ibdata1:150M 


3. 把 新 的 组 成 文件 添加 到 文件 清单 的 末尾 ， 该 文件 可 以 是 普通 文件 ， 也 可 以 是 一 个 原 
始 硬 盘 分 区 。 
4， 重 启 服 务 器 。 


还 有 一 种 方法 重新 配置 InnoDB 表 空间 ， 就 是 先 备 份 ， 再 重新 配置 ， 最 后 重新 加 载 备份 。 
具体 步骤 如 下 : 


1. 使 用 mysqldump 备 份 整个 InnoDB 数 据 库 ; 


2， 关 闭 服 务 器 ， 删 除 所 有 lnnoDB 表 空间 、InnoDB 日 志文 件 及 InnoDB 数 据 表 的 .frm 文 
件 ; 


3.， 重新 配置 InnoDB 表 空间 ; 


4.， 配置 完成 后 ， 用 备份 文件 重 载 数据 ， 生 成 新 的 InnoDB 数 据 表 。 


4.7. 优化 服务 器 


及 


wa 


MySQL 服 务 器 为 我 们 提供 了 丰富 的 参数 ， 以 调整 服务 器 满足 不 同 环境 的 要 求 。 下 面 分 别 讨论 


一 下 这 些 参数 : 
。 服务 器 参数 变量 的 设置 。MySQL 服 务 器 参数 可 在 服务 器 


后 的 版 本 中 ， 


启动 时 设置 ， 在 MySQL4.0.3 及 以 
， 有 些 参数 也 允许 在 线 设置 。 在 MySQL4.0.2 及 以 后 的 版 本 里 ， 可 以 把 一 个 变 


量 名 视 为 一 个 选项 名 来 设置 。 如 数据 表 缓 冲 区 的 尺寸 由 服务 器 参数 talbe_cache 来 设置 。 


如 果 需 把 它 设置 为 128, 则 可 以 在 命令 行 里 增加 


--table_ cache=128 


也 可 在 选项 文件 中 设置 : 


[mysqld] 
table_ cache=128 


在 命令 行 


选项 中 ' 可 号 ，， 变 成 : 


--table-cache=128 # 这 种 写法 更 像 一 个 标准 选项 


还 有 一 种 是 使 用 --set-variable 或 -O 选 项， 如 : 


--Set-variable=table cache=128 
or 

-0 table _ cache=128 

在 选项 文件 中 可 写成 : 

[mysqld] 

set-variable=table cache=128 


服务 器 参数 分 为 全 


则 只 影响 某 给 定 客 
ne a 
对 全 局 参数 所 作 的 修改 不 会 
数 的 语句 : 

全 局 级 : 


mysql> SET GLOBAL variable = value; 
mysql> SET @Q@GLOBAL .variable = value; 

会 话 级 : 
mysql> SET SESSION variable = value; 
mysql> SET @Q@SESSION.variable = value; 
默认 不 带 级 别 限 定 符 的 SET 语句 修改 的 参数 属 会 话 级 ， 如 : 
mysql> SET variable = value; 
mysql> SET @@variable = value; 
可 用 一 条 SET 语 名 设置 多 个 参数 ， 参 数 间 用 去 号 分 隔 ， 如 : 
SET SESSION variable = valuel1,value2,value3; 


和 影响 整个 服务 器 


连接 上 的 工作 。 如 果 某 个 变量 同时 存在 于 两 个 级 别 ， 则 服务 器 在 客 
的 值 去 初始 化 相应 的 会 话 级 参数 ， 一 旦 客户 连接 建立 起 来 后 ， 
影响 到 相应 的 会 话 级 参数 当前 值 。 设 置 全 局 参数 和 会 话 级 参 


se 


， 会 话 级 参数 


SESSION 和 LOCAL 是 同 义 语 ， 可 用 LOCAL 代 替 SESSION ; 如 : @@LOCAL 


具备 SUPER 权 限 才 能 设置 全 局 参数 ， 新 设置 值 的 效力 将 持续 到 该 参数 被 再 次 修改 或 服务 
器 退出 。 设 置 会 话 级 参数 不 用 特殊 的 权限 ， 新 设置 值 的 效力 将 持续 到 该 值 被 再 次 修改 或 
连接 断 开 。 显 示 参 数 的 语句 如 下 : 


SHOW GLOBAL VARIABLES ， 

SHOW GLOBAL VARIABLES LIKE 'TEST'; 

SHOW SESSION VARIABLES ' 

SHOW SESSION VARIABLES LIKE "TEST '; 

如 不 带 限 定 符 ， 则 返回 会 话 级 参数 ， 如 会 话 级 参数 不 存在 则 返回 全 局 级 参数 。 
也 可 用 命令 行 方式 显示 服务 器 参数 变量 ， 如 : 

% mysqladmin variables 


。 下面 介绍 一 些 MySQL 服 务 器 通用 的 参数 变量 : 


o back log， 当 多 个 客户 同时 连接 服务 器 时 ， 客 户 处 理 过程 需 进入 一 个 队列 排队 等 待 
服务 器 处 理 。 该 值 定义 服务 器 等 待 处理 队 列 长 度 的 最 大 值 ， 如 果 站 点 访问 量 大 ， 需 
加 大 该 值 。 


o delayed_ queue_size， 在 实际 插入 数据 表 前 ， 来 自 insert delayed 语 名 的 数据 行 会 进 
入 一 个 队列 等 待 服务 器 处 理 。 该 值 定义 该 队列 能 容纳 的 数据 行 的 最 大 个 数 。 当 队列 
满 时 ， 会 阻塞 后 续 的 语句 。 加 大 该 值 能 提高 insert delayed 语 句 的 执行 速度 。 


o flush_time， 自 动 存 盘问 隔 。 如 果 系 统 经 常 死 机 或 重启 ， 把 这 个 变量 设置 为 一 个 适当 
的 非 零 值 ， 使 MySQL 服 务 器 每 隔 flush_time 称 去 刷新 一 次 数据 表 缓 冲 区 ， 将 其 中 的 信 
息 写 入 磁盘 。 这 将 导致 系统 性 能 下 降 ， 但 可 减少 数据 表 被 破坏 或 丢失 数据 的 概率 。 
在 命令 行 上 用 --flush 选 项 启动 服务 器 可 使 数据 表 在 每 次 修改 后 被 自动 存盘 。 


o key_buffer_size， 用 来 容纳 索引 块 的 缓冲 区 的 长 度 。 加 大 该 值 可 加 快 索引 创建 和 修 
改 操作 的 速度 ， 该 索引 缓冲 区 越 大 ， 在 内 存 中 找到 键 值 的 可 能 性 就 越 大 ， 读 盘 次 数 
就 越 少 。MySQL3.23 前 的 版 本 里 ， 该 参数 叫 key_buffer。3.23 版 本 之 后 ， 两 种 叫 法 都 
可 以 。 


o max_allowed packet， 服 务 器 与 客户 程序 之 问 通信 时 使 用 的 缓冲 区 在 最 大 值 。 
MySQL 4 版 本 之 前 ， 该 最 大 值 可 取 16MB，MySQL 4 版 本 以 后 ， 该 值 的 最 大 值 是 
1GB。 如 果 客 户 端 与 服务 器 需 传 送 大 容量 的 数据 ， 如 BLOB 或 TEXT 值 ， 就 要 加 大 该 
值 。 客 户 端 也 有 一 个 同名 的 变量 ， 黑 认 是 16MB， 该 值 也 要 加 大 。 客 户 端的 启动 命令 
为 : 


% mysql --set-variable=max_allowed_packet=64M 


o max_connections， 人 允许 同时 打开 的 连接 数 ， 如 果 站 点 繁忙 ， 需 加 大 该 值 。 


o table_cache， 数 据 表 缓存 区 的 尺寸 。 加 大 该 值 可 使 服务 器 能 够 同时 打开 更 多 的 数据 
表 ， 从 而 减少 文件 打开 /关闭 操作 的 次 数 。 


注意 : 加 大 max_connections 和 table_cache 参 数 的 值 ， 会 使 服务 器 占用 更 多 的 文件 描述 
符 。 运 行 多 个 服务 器 可 绕 过 该 限制 。 对 一 些 分 配给 每 个 客户 的 资源 变量 ， 设 置 时 不 能 过 
大 ， 因 为 当 连 接 数 快速 增长 时 会 很 快 耗 尽 服务 器 的 资源 ， 造 成 服务 器 性 能 下 降 。 


e InnoDB 处 理 程序 变量 : 


o innodb_ buffer_pool_size，InnoDB 数 据 库 缓冲 池 的 大 小 ， 如 果 有 足够 的 内 存 ， 可 把 
该 值 设 置 得 大 些 以 减少 读 盘 操 作 。 


o innodb log fille_size 和 innodb log files_in_group， 前 者 设置 日 志文 件 的 长 度 ， 后 者 
设置 日 志文 件 的 个 数 。InnoDB 日 志文 件 的 总 长 度 是 两 者 的 乘积 ， 它 的 总 长 度 不 得 超 
过 4GB。 


4.8. 运行 多 个 MySQL 服 务 器 


需 运 行 多 个 服务 器 的 原因 有 很 多 ， 比 如 上 面 提 到 的 可 绕 过 最 大 文件 描述 符 的 限制 ， 还 有 是 进 
行 版 本 测试 和 提供 专用 服务 等 。 运 行 多 个 服务 器 比 运行 单 个 服务 器 复杂 很 多 ， 需 注意 以 下 间 


e 在 安装 不 同 版 本 的 程序 时 ， 需 分 开 目 录 存 放 程 序 和 数据 目录 。 如 果 同 一 版 本 的 服务 器 软 
件 ， 则 程序 目录 可 一 样 ， 但 数据 目录 则 要 不 同 。 可 用 --basedir=dir name 和-- 
datadir=dir name 两 个 启动 选项 指 时 这 两 个 目录 。 


e。 要 为 不 同 的 服务 器 指定 不 时 的 --port=port_name(TCP/IP 监 听 端 口 )，-- 
socket=file_name( 套 接 字 文件 名 ) 和 --pid-file=file_name( 进 程 ID 文 件 ) 值 。 


e 如 果 激 活 了 日 志 功 能 ， 就 要 为 不 同 的 服务 器 指定 不 同 的 日 志文 件 名 。 
。 在 Windows 平 台 上 ， 被 安装 为 服务 的 多 个 MySQL 服 务 器 必须 有 不 同 的 服务 名 。 
多 服务 器 环境 下 选项 文件 的 配置 方法 : 


。 使 用 --defaults-file 选 项 指定 每 个 选项 文件 ， 这 样 ， 每 个 服务 器 就 不 会 去 读 /etc/my.cnf 这 些 
配置 文件 ， 而 会 使 用 你 所 指定 的 配置 文件 。 

e。 可 把 一 些 公共 的 选项 放 到 /etc/my.cnf 文 件 里 ， 再 用 --defaults-extra-file 选 项 指出 特定 服务 
器 的 特定 选项 文件 。 这 样 就 不 用 在 所 有 的 配置 文件 时 重复 公共 的 选项 。 


e。 用 mysql_multi 脚 本 启动 服务 器 ， 它 允许 我 们 把 所 有 的 选项 放 到 同一 个 选项 文件 里 。 每 一 
个 服务 器 对 应 该 文件 中 的 一 个 选项 组 。 
下 面 介 绍 用 mysql_multi 脚 本 启动 多 服务 器 的 方法 。 


1. 为 每 个 服务 器 编 一 个 编号 XXX， 对 应 选项 文件 的 [mysqldxxx] 选 项 组 。mysql_multi 本 
身 要 用 到 的 选项 可 放 到 [mysqld_multi] 里 。 这 样 /etc/my.cnf 选 项 配置 文件 看 起 来 就 象 
下 面 这 样 : 


[mysdq1d0o011] 
basedir=/usr/local/mysql/001 
datadir=/usr/local/mysql/001/data 
mysqld=/usr/local/mysql/001/bin/mysqld_safe 
socket=/usr/local/mysql/001/mysql.sock 
port=3306 

local-infile=1 

user=mysqladm 

1og=1og 

Jog-update=update-1og 
Innodb_data_file_path=ibdatal:10M 


[mysqld002] 
basedir=/usr/local/mysql/002 
datadir=/usr/local/mysql/002/data 
mysqld=/usr/local/mysql/002/bin/mysqld_safe 
socket=/usr/local/mysql/002/mysql.sock 
port=3307 

local-infile=1 

user=mysqladm 

J]og=1log 

log-update=update-1log 
innodb_data_file_path=ibdatal1:10M 


器 


2， 配 置 好 选项 文件 后 ， 就 可 用 以 下 命令 启动 服务 


% mysqld_multi --no-log start 001, 002 
# 启 动 991 和 602 两 个 服务 器 ， 并 把 启动 信息 发 送 到 控制 台 ， 也 可 用 区 间 的 形式 给 出 服务 器 编号 


用 以 下 命令 可 查看 服务 器 状态 : 


% mysqld multi --no-log --user=root --password=password report 001 


可 用 以 下 命令 停止 MySQL 服 务 器 : 


6 mysqld_multi --no-1og --user=root --password=password sto 
% mysqld 1ti lo0g t p d=p d stop 001 


。 在 Windows 平 台 下 运行 多 个 MySQL 服 务 器 的 方式 有 两 种 ， 一 种 是 运行 同一 个 MySQL 程 序 
的 两 个 实例 ， 一 种 是 运行 多 个 windows 服 务 ， 下 面 分 别 介 绍 : 


o 第 一 种 情况 需 设置 两 个 选项 文件 ， 指 定 不 同 的 数据 目录 ， 如 : 


c:\mysql\my.cnf1 


[mysqld] 
basedir=c:/mysql 
datedir=c:/mysql/data1 
port=3306 


c:\mysql\my.cnf2 


[mysqld] 
basedir=c:/mysql 
datadir=c:/mysql/data2 
port=3307 


在 启动 服务 器 时 ， 用 --defaults-file 选 项 指出 选项 文件 即 可 。 如 : 


c:\&gt; mysqld --defaults-file=c:\mysql\my.cnf1 
ci:\&gt; mysqld --defaults-file=c:\mysql\my.cnf2 


o 在 MySQL 4.0.2 版 本 开始 ， 可 以 把 MySQL 安 装 为 一 个 服务 ， 并 可 指定 一 个 服务 名 ， 
如 : 


Cc:\&gt; mysql-nt --install service_name 


在 MySQL 4.0.3 开 始 ， 安 装 服务 还 支持 --defaults-file=file_ name 选 项 


这 样 ， 我 们 就 可 把 MySQL 安 装 为 一 系列 不 同 的 服务 ， 如 果 不 指定 service_name， 则 
安装 的 服务 名 默认 为 MySql， 如 果 指 定 service_name， 则 安装 的 服务 名 为 指定 的 
service_name， 并 对 应 选项 文件 中 的 [service_name] 选 项 组 。 以 默认 服务 名 运行 的 

1] 大 


器 还 支持 一 个 名 为 MySql 的 命名 管道 ， 而 明确 给 出 服务 名 的 服务 器 将 只 监听 
se ea 名 管道 -- 除 非 还 用 socket 选 项 明确 指定 一 个 套 接 字 文件 。 


移 除 服务 需 先 用 mysqladmin shutdown 命 令 停 掉 服 务 器 ， 再 执行 以 下 命令 


c:\&gt; mysql-nt --remove # 移 除 默 认 的 服务 
c:\&gt; mysql-nt --remove service_name # 移 除 指定 服务 


4.9. MySQL 服 务 器 镜像 配置 


通过 镜像 机 制 可 把 数据 从 一 个 地 方 复制 到 另 一 个 地 方 ， 并 能 实现 同步 两 个 或 多 个 地 方 的 数 
据 。MySQL 服 务 器 也 支持 镜像 ， 大 提高 数据 的 安全 性 和 稳定 性 。 下 面 介绍 一 下 MySQL 数 据 中 
的 镜像 机 制 : 

。 在 镜像 关系 中 ， 一 个 MySQL 服 务 器 扮演 主 服务 器 角色 ， 另 外 一 个 或 多 个 服务 器 扮演 从 服 

务 器 角色 ， 从 服务 器 中 的 数据 和 主 服务 器 中 的 数据 完全 一 样 。 

e@ 在 镜像 建立 之 前 ， 主 服务 器 和 从 服务 器 必须 进行 一 次 完全 同步 。 同 步 之 后 ， 在 主 服务 器 
上 所 做 的 操作 将 会 在 从 服务 器 上 再 实现 ， 主 服务 器 上 的 操作 不 是 直接 作用 于 从 服务 器 上 
的 。 

e@ 负责 在 主 、 从 服务 器 上 传输 各 种 修改 动作 的 媒介 是 主 服务 器 上 的 二 进 制 变更 日 志 ， 该 日 
志 记 录 着 主 服务 器 上 所 有 的 操作 动作 。 因 此 ， 主 服务 器 必须 激活 二 进 制 日 志 功 能 。 

e@ 从 服务 器 必须 有 足够 的 权限 从 主 服 务 器 上 接收 二 进 制 日 志文 件 。 镜 像 协调 信息 记录 从 服 
务 器 的 进展 情况 ， 包 括 ， 从 服务 器 正在 读 取 的 二 进 制 变更 日 志文 件 名 和 它 在 该 文件 里 的 
当前 读 写 位 置 。 


如 


。 每 个 主 服务 器 可 以 有 多 个 从 服务 器 ， 但 每 个 从 服务 器 只 能 有 一 个 主 服务 器 。 但 MySQL 服 


连 。 


A 
它 


绢 
麻 中 


镜像 机 制 在 MySQL 中 还 是 一 个 新 生 事 物 ， 最 早 实现 于 3.23.15 版 。 各 版 本 间 的 镜像 能 力 有 差 
异 ， 一 般 来 说 ， 建 议 大 家 尽量 使 用 最 新 的 版 本 ， 下 面 列 举 了 不 同 版 本 的 MySQL 服 务 器 在 镜像 
机 制 方面 的 兼容 规则 : 


。 3.23.X 系 统 版 本 的 从 服务 器 不 能 与 4.X 系 统 版 本 的 主 服务 器 通信 。 
e 4.0.0 版 本 的 从 服务 器 只 能 与 4.0.0 版 本 的 主 服务 器 通信 。 


e。 4.0.1 或 更 高 版 本 的 从 服务 器 既 能 与 3.23.x 系 统 版 本 的 主 服务 器 通信 ， 也 能 与 4.x 系 统 版 本 
的 主 服务 器 通信 。 但 后 一 种 情况 要 求 主 服务 器 的 版 本 号 等 于 或 大 于 从 服务 器 的 版 本 号 。 


一 般 来 说 ， 建 议 遵循 以 下 原则 : 

e。 要 尽 可 能 地 让 主 服务 器 和 从 服务 器 都 使 用 同一 版 本 系统 。 
。 在 选 定 系 统 后 ， 尽 量 使 用 该 系统 的 最 新 版 本 。 

建立 主 从 镜像 服务 器 的 步骤 : 


。 确定 主 从 服务 器 的 镜像 ID 号 ， 主 从 服务 器 的 ID 号 不 能 相同 。 在 启动 主 从 服务 器 时 ， 用 -- 
server id 局 动 选 项 给 出 其 ID 。 
e 从 服务 器 必须 在 主 服 务 器 上 有 一 个 具备 足够 的 权限 的 帐户 ， 从 服务 器 将 使 用 该 帐户 去 连 
接 主 服务 器 并 请 求 主 服 务 器 把 二 进 制 变更 日 志 发 送 给 它 。 可 用 以 下 命令 创建 这 个 帐户 : 
mysql> GRANT REPLICATION SLAVE ON *.* TO 'slave user'@'slave host' IDENTIFIED BY 'slé 


#REPLICATION 权 限 只 MySQL4.0.2 后 版 本 ， 之 前 的 版 本 请 用 FILE 权 限 。 


==== 3 一 si 





"| 
e@ 把 主 服务 器 上 的 数据 库 文件 拷贝 到 从 服务 器 上 完成 最 初 同步 工作 。 也 可 用 备份 后 再 加 载 
的 方法 。 在 MySQL 4.0.0 及 以 后 版 本 里 ， 还 可 用 在 主 服务 器 上 运行 LOAD DATA FROM 
MASTER 语 名 来 建立 从 服务 器 。 但 有 约束 条 件 : 
o 数据 表 要 全 部 是 MyISAM 表 
o 为 发 出 这 条 指令 而 在 连接 从 服务 器 时 使 用 的 帐户 必须 有 SUPER 权 限 。 


o 从 服务 器 用 来 连接 主 服务 器 的 帐户 必须 具备 RELOAD 和 SUPER 权 限 。 注 意 ， 这 是 一 
个 主 服务 器 上 的 帐户 ， 而 用 来 发 出 LOAD DATA FROM MASTER 语 句 的 帐户 是 一 个 
从 服务 器 上 的 帐户 。 


o LOAD DATA FROM MASTER 语 句 在 执行 时 需 申 请 一 个 全 局 性 的 读 操 作 锁 ， 这 个 锁 
在 语句 执行 期 间 阻 塞 主 服务 器 上 一 切 的 写 操作 。 


无 论 用 哪 种 方法 同步 数据 ， 都 要 确保 在 开始 制作 备份 到 给 主 服务 器 重新 配置 好 二 进 制 日 
志 功 能 这 段 时 间 ， 不 能 在 主 服务 器 上 发 生 修改 操作 。 


文 
e@ 关闭 服务 器 。 


e 对 主 服 务 器 的 配置 进行 修改 -- 把 它 的 镜像 ID 告诉 它 并 激活 其 二 进 制 日 志 功 能 。 在 主 服务 器 
要 读 取 的 选项 文件 内 增加 以 下 内 容 : 
[mysqld] 


server-id=master_server_id 
10g-bin=binlog_name 


e@ 重新 启动 主 服务 器 ， 从 现在 开始 ， 它 将 把 客户 对 数据 库 的 修改 操作 记录 到 二 进 制 变更 日 
志 里 。 如 果 在 此 之 前 已 经 激活 了 二 进 制 日 志 功 能 ， 则 要 在 重启 前 把 二 进 制 变更 日 志 备 份 
下 来 ， 在 重启 后 再 发 一 条 RESET MASTER 语 句 去 清除 现 有 的 二 进 制 变更 日 志 。 


e@ 关闭 从 服务 器 。 
e@ 对 从 服务 器 进行 配置 ， 使 它 知道 自己 的 镜像 ID， 到 哪里 去 找 主 服 务 器 以 及 如 何 去 连 接 主 
服务 器 。 配 置 内 容 如 下 : 


[mysqld] 
server-id=slave_ server_id 
master-host=master_host 





master-user=slave_user # 在 主 服 务 器 上 为 从 服务 器 建立 的 帐户 
msater-password=slave_pass # 在 主 服 务 器 上 为 从 服务 器 建立 的 帐户 的 密码 
master-connet-retry=30 # 设 置 连接 重 试 间隔 ， 默 认为 60 秒 
master-retry-count=100000 # 设 置 重 试 次 数 ， 黑 认为 86400 次 


注 : 最 后 两 个 选项 在 网 络 连接 不 可 靠 时 设置 


e 重新 启动 从 服务 器 。 从 服务 器 用 两 个 信息 源 来 确定 它 自己 在 镜像 工作 中 的 进度 位 置 : 一 
个 是 数据 目录 中 的 masterinfo 文 件 ， 另 一 个 是 启动 选项 所 给 定 的 配置 信息 。 第 一 次 启动 从 
服务 器 时 ，master.info 文 件 不 存在 ， 从 服务 器 会 根据 选项 文件 中 给 出 的 各 种 master-xxx 选 
项 值 去 连接 主 服务 器 。 一 旦 连接 成 功 ， 从 服务 器 会 创建 一 个 master.info 文 件 以 保存 各 种 连 
接 参 数 和 它 自己 的 镜像 工作 状态 。 如 果 以 后 再 重启 从 服务 器 ， 从 服务 器 会 优先 读 取 该 文 
件 ， 而 不 是 选项 文件 。 所 以 如 果 你 修改 了 选项 文件 的 内 容 ， 想 该 选项 生效 就 要 删除 
master.info 文 件 并 重启 从 服务 器 。 

以 上 步骤 是 镜像 所 有 数据 库 的 操作 过 程 ， 如 果 我 们 想 把 mysql 权 限 数据 保留 在 主 服务 器 上 ， 排 
除 在 镜像 机 制 外 的 话 ， 可 用 在 选项 文件 的 [mysqld] 中 加 入 --binlog-ignore-db=mysql 选 项 ， 这 
样 ，mysql 数 据 库 上 的 操作 就 不 会 记录 在 二 进 制 变 更 日 志 里 。 如 要 排除 其 它 数据 库 ， 只 要 增加 
多 几 个 该 选项 即 可 。 

通过 以 下 几 个 命令 可 监控 和 管理 主 从 服务 器 : 

。 SLAVE STOP，SLAVE START 用 于 挂 起 来 恢复 从 服务 器 上 镜像 ， 如 当 备 份 时 ， 可 用 该 语 
名 让 从 服务 器 暂时 停止 镜像 活动 。 


。 SHOW SLAVE STATUS， 在 从 服务 器 上 查看 其 镜像 协调 信息 ， 这 些 信息 可 以 用 来 判断 哪 
些 二 进 制 变更 日 志 已 经 不 再 使 用 。 

。 PURGE MASTER， 在 主 服务 器 上 对 二 进 制 变更 日 志 进 行 失效 处 理 。 删 除 所 有 从 服务 器 
都 不 再 使 用 的 二 进 制 变更 日 志 。 

。 CHANGE MASTER， 在 从 服务 器 上 修改 镜像 参数 。 如 正在 读 取 主 服务 器 上 哪个 二 进 制 变 
更 日 志 ， 正 在 写 哪个 中 继 日 志文 件 等 。 

在 MySQL4.0.2 之 后 版 本 中 ， 镜 像 机 制 中 的 从 服务 器 由 两 个 内 部 线程 组 成 : 

。 一 个 叫 "J/O 线 程 ”， 负 责 与 主 服务 器 通信 ， 请 求 主 服务 器 发 送 二 进 制 变更 日 志 ， 并 把 接收 
到 的 数据 修改 命令 写 入 某 个 中 继 日 志文 件 ; 用 SLAVE STOP IO_THREAD 或 SLAVE 
START IO_THREAD 可 挂 起 或 恢复 该 线程 。 

e 另 一 个 叫 “SQL 线 程 ”， 负 责 从 中 继 日 志 中 读 取 数 据 修改 命令 并 执行 。 同 理 ， 用 SLAVE 
STOP SQL_ THREAD 或 SLAVE START SQL_THREAD 可 挂 起 或 恢复 该 线程 。 

中 继 日 志文 件 默认 的 文件 为 hostname-relay-bin.nnn 和 hostname-relay-bin.index。 可 用 从 服务 
器 的 --relay-log 和 --relay-log-index 选 项 修改 。 在 从 服务 器 中 还 有 一 个 relay-log.info 中 继 信 息 文 
件 ， 可 用 --relay-log-info-file 启 动 选 项 修改 文件 名 。 


Chapter 5. 数据 库 安 全 


安全 是 一 个 过 程 ， 而 不 是 一 个 方法 ， 它 贯穿 在 我 们 使 用 和 维护 MySQL 数 据 库 的 过 程 中 。 这 不 
单 是 系统 管理 员工 作 ， 用 户 也 要 有 安全 的 意识 ， 使 安全 问题 得 到 有 效 控制 。MySQL 服 务 器 的 
安全 问题 可 分 为 内 部 安全 和 外 部 安全 两 部 份 。 内 部 安全 问题 大 都 与 系统 文件 有 关 ， 我 们 需 确 
保 MySQL 程 序 文件 和 数据 文件 的 安全 。 外 部 安全 是 指 通过 网 络 连接 到 服务 器 的 安全 问题 ， 应 
该 只 允许 合法 用 户 访问 数据 库 ， 在 一 些 情况 下 还 可 用 SSL 加 密 信 息 传 输 通 道 。 下 分 别 介 绍 内 部 
安全 和 外 部 安全 的 防范 措施 。 


5.1. 保护 MySQL 安 装 程序 文件 


。 在 重 设置 文件 权限 时 ， 请 先 关闭 数据 库 服务 器 。 


e。 用 以 下 命令 把 MySQL 安 装 程序 目录 的 属 主 和 所 属 组 设置 为 MySQL 管 理 员 帐 号 的 用 户 名 和 
用 户 组 名 。 


% chown -R mysql.mysql /usr/local/mysql 


另外 一 种 方法 是 把 除数 据 目录 外 的 所 有 目录 属 主 设置 为 root 所 有 ， 如 : 


% chown -R root,mysql /usr/local/mysql 
% chown -R mysql.mysql /usr/local/mysql/data 


。 设置 安装 目 eS 录 的 权限 ， 允 许 管理 员 进 行 所 有 操作 ， 只 允许 其 他 人 进行 读 
和 执行 访问 ， 设 置 命令 如 


# 设 置 mysdql1 目 录 

% chmod 755 /usr/local/mysql 

or 

% chmod u=rwx, go=rx /usr/local/mysql 

# 设 置 mysql/bin 目 录 

% chmod 755 /usr/local/mysql/bin 

or 

% chmod u=rwx,go=rx /usr/local/mysql/bin 
# 设 置 mysql/1ibexec 目 录 

% chmod 700 /usr/local/mysql/libexec 

or 

% chmod u=rwx,go-rwx /usr/local/mysql/libexec 


。 把 数据 目录 及 目录 中 的 所 有 子 目 录 和 文件 设置 为 只 允许 MySQL 管 理 员 访问 。 


% chmod -R go-rwx /usr/local/mysql/data 


如 果 数 据 目 录 下 有 选项 文件 或 套 接 字 文 件 ， 并 一 些 客 户 需 访问 这 些 文件 ， 则 可 用 以 下 的 
权限 设置 ， 使 客户 在 没有 读 权 限 的 前 提 下 使 用 这 些 文件 : 


% chmod go+x /usr/local/mysql/data 


。 mysql.sock 套 接 字 文件 一 es ， 要 确保 该 目录 设置 了 粘着 位 ， 使 自 户 只 能 删 
除 自己 创建 的 文件 ， 不 能 删除 其 他 用 户 创建 的 文件 。/etc/my.cnf 中 公共 选项 文件 ， 是 对 所 
有 用 户 可 读 的 ， 息 保存 在 里 面 。.my.cnf 是 用 户 专用 选项 文件 ， 要 
确保 只 有 该 用 户 有 权 访 问 。 


器 


0° 


这 样 设置 以 后 ， 只 有 MySQL 管 理 员 才 能 启动 服务 器 


5.2. 权限 表 


MySQL 服 务 器 通过 权限 表 来 控制 用 户 对 数据 库 的 访问 ， 权 限 表 存放 在 mysql 数 据 库 里 ， 由 
mysql_install ee 这 些 权 限 表 分 别 user，db，table_priv，columns_priv 和 host 。 
下 面 分 别 介绍 一 下 这 些 表 的 结构 和 内 容 : 


e USer 权 限 表 : 记录 人 允许 连接 到 服务 器 的 用 户 帐 号 信息 ， 里 面 的 权限 是 全 局 级 的 。 
e db 权限 表 : 记录 各 个 帐号 在 各 个 数据 库 上 的 操作 权限 。 


。 table_priv 权 限 表 : 记录 数据 表 级 的 操作 权限 。 


e。 columns_priv 权 限 表 : 记录 数据 列 级 的 操作 权限 。 


e host 权 限 表 : 配合 db 权限 表 对 给 定 主机 上 数据 库 级 操作 权限 作 更 细致 的 控制 。 这 个 权限 
表 不 受 GRANT 和 REVOKE 语 句 的 影响 。 


大 家 注意 到 ， 以 上 权限 没有 限制 到 数据 行 级 的 设置 。 在 MySQL 只 要 实现 数据 行 级 控制 就 要 通 
过 编写 程序 (使 用 GETLOCK() 函 数 ) 来 实现 。 

MySQL 的 版 本 很 多 ， 所 以 权限 表 的 结构 在 不 同 版 本 间 会 有 不 同 。 如 果 出 现 这 种 情况 ， 可 用 
mysql_fix_privilege_tables 脚 本 来 修正 。 运 行 方式 如 下 : 


% mysql_fix_privilege tables rootpassword # 这 里 要 给 出 MySQL 的 root 用 户 密码 


最 好 一 下 子 升级 到 MySQL 4.0.4 版 本 ， 因 为 4.0.2 和 4.0.3 的 db 表 没 有 Create_tmp_table_priv 和 
Lock_tables_priv 权 限 。 
MySQL 的 权限 表 定 义 了 两 部 份 内 容 ， 一 个 部 份 定义 权限 的 范围 ， 即 谁 (帐户 ) 可 以 从 哪里 (客户 
端 主机 ) 访 问 什么 (数据 库 、 数 据 表 、 数 据 列 ) ; 另 一 部 份 定义 权限 ， 即 控制 用 户 可 以 进行 的 操 
作 。 下 面 是 一 些 常用 的 权限 介绍 ， 可 直接 在 GRANT 语句 中 使 用 。 
。 CREATE TEMPORARY TABLES， 允许 创建 临时 表 的 权限 。 
e。 EXECUTE， 人 允许 执行 存储 过 程 的 权限 ， 存 储 过 程 在 MySQL 的 当前 版 本 中 还 没 实现 。 
e。 FILE， 人 允许 你 通过 MySQL 服 务 器 去 读 写 服务 器 主机 上 的 文件 。 但 有 一 定 限制 ， 只 能 访问 
对 任何 用 户 可 读 的 文件 ， 通 过 服务 器 写 的 文件 必须 是 尚未 存在 的 ， 以 防止 服务 器 写 的 文 
件 履 盖 重 要 的 系统 文件 。 尽 管 有 这 些 限 制 ， 但 为 了 安全 ， 尽 量 不 要 把 该 权限 授予 普通 用 
户 。 并 且 不 要 以 root 用 户 来 运行 MySQL 服 务 器 ， 因 为 root 用 户 可 在 系统 任何 地 方 创建 文 
件 。 
。 GRANT OPTION， 人 允许 把 你 自己 所 拥有 的 权限 再 转 授 给 其 他 用 户 。 


LOCK TABLES， 可 以 使 用 LOCK TABLES 语 句 来 锁定 数据 表 


PROCESS ， 允许 你 查看 和 终止 任何 客户 线程 。SHOW PROCESSLIST 语 句 或 
mysqladmin processlist 命 令 可 查看 线程 ，KILL 语 句 或 mysqladmin kill 命 令 可 终止 线程 。 
在 4.0.2 版 及 以 后 的 版 本 中 ，PROCESS 权 限 只 剩 下 查看 线程 的 能 力 ， 终 止 线程 的 能 力 由 
SUPER 权 限 控制 。 


RELOAD， 允 许 你 进行 一 些 数据 库 管 理 操作 ， 如 FLUSH，RESET 等 。 它 还 允许 你 执行 
mysqladmin 命 令 : reload ， refresh ， flush-hosts ， flush-logs ， flush-privileges ， flush- 
status，flush-tables 和 flush-threads。 


REPLICATION CLIENT， 人 允许 查询 镜像 机 制 中 主 服务 器 和 从 服务 器 的 位 置 。 


。 REPLICATION SLAVE， 人 允许 菜 个 客户 
变更 日 志 。 该 权限 应 授予 从 服务 器 用 来 
是 用 FILE 权 限 来 连接 的 。 


连接 到 镜像 机 制 中 的 主 服务 器 并 请 求 发送 二 进 制 
连接 主 服务 器 的 帐号 。 在 4.0.2 版 这 前 ， 从 服务 器 


。 SHOW DATABASES“， 控 制 用 户 执行 SHOW DATABASES 语 和 句 的 权限 。 


。 SUPER， 允 许 终止 线程 ， 使 用 mysqladmin debug 命 令 ， 使 用 CHANGE MASTER ， 
PURGE MASTER LOGS 以 及 修改 全 局 级 变量 的 SET 语句 。SUPER 还 允许 你 根据 存放 在 
DES 密 钥 文 件 里 的 密 钥 进行 DES 解 密 的 工作 。 


User 权限 表 中 有 一 个 ss| type 数据 列 ， 用 来 说 明 连 接 是 否 使 用 加 密 连 接 以 及 使 用 哪 种 类 型 的 连 
接 ， 它 是 一 个 ENUM 类 型 的 数据 列 ， 可 能 的 取 值 有 : 


e。 NONE， 默 认 值 ， 表 示 不 需 加 蜜 连接 。 


e。 ANY， 表 示 需 要 加 蜜 连接 ， 可 以 是 任何 一 种 加 密 连 接 。 由 GRANT 的 REQUIRE SSL 子 名 


设置 。 


e。 X509， 表 示 需 要 加 密 连 接 ， 并 要 求 客户 提供 一 份 有 效 的 X509 证 书 。 由 GRANT 的 
REQUIRE X509 子 名 设置 。 


。 SPECIFIED， 表 示 加 密 连 接 需 满足 一 定 要 求 ， 由 REQUIRE 子 名 的 ISSUER ，SUBJECT 
或 CIPHER 的 值 进行 设置 。 只 要 ss|_type 列 的 值 为 SPECIFIED， 则 MySQL 会 去 检查 
ssl_cipher( 加 密 算 法 )、x509_issuer( 证 书签 发 者 ) 和 x509 subject( 证 书 主题 ) 列 的 值 。 这 几 
列 的 列 类 型 是 BLOB 类 型 的 。 


User 权 限 表 里 还 有 几 列 是 设置 帐户 资源 使 用 情况 的 ， 如 果 以 下 数据 列 中 的 数 全 为 零 ， 则 表示 
没有 限制 : 


。 max_connections， 每 小 时 可 连接 服务 器 的 次 数 。 

。 max_questions， 每 小 时 可 发 出 查询 命令 数 。 

。 max_updates， 每 小 时 可 以 发 出 的 数据 修改 类 查询 命令 数 。 
设置 权限 表 应 注意 的 事项 : 

。 删除 所 有 匿名 用 户 。 


。 查 出 所 有 没有 口令 用 户 ， 重 新 设置 口令 。 可 用 以 下 命令 查询 空 口令 用 户 : 


mysql> SELECT host,user FROM User WHERE password = "'; 


e@ 尺 量 不 要 在 host 中 使 用 通配符 。 
e@ 最 好 不 要 用 User 权 限 表 进行 授权 ， 因 为 该 表 的 权限 都 是 全 局 级 的 。 


。 不 要 把 mysql 数 据 库 的 权限 授予 他 人 ， 因 为 该 数据 库 包含 权限 表 。 


。 使 用 GRANT OPTION 权 限时 不 要 滥用 


e FILE 权 限 可 访问 文件 系统 中 的 文件 ， 所 以 授权 时 也 要 注意 。 一 个 具有 FILE 权 限 的 用 户 执 
行 以 下 语句 就 可 查看 服务 器 上 全 体 可 读 的 文件 : 


mysql> CREATE TABLE etc_passwd(pwd_entry TEXT); 
mysql> LOAD DATA INFILE '/etc/passwd' INTO TABLE etc_passwd; 
mysql> SELECT * FROM etc_passwd; 


如 果 MySQL 服 务 器 数据 目录 上 的 访问 权限 设置 得 不 好 ， 就 会 留 下 让 具有 FILE 权 限 的 用 户 
进入 别人 数据 库 的 安全 漏洞 。 所 以 建议 把 数据 目录 设置 成 只 能 由 MySQL 服 务 器 读 取 。 下 
面 演示 一 个 利用 具有 FILE 权 限 的 用 户 读 取 数据 目录 中 文件 权限 设置 不 严密 的 数据 库 数据 
的 过 程 


mysql> Use test,; 
mysql> create table temp(b longblob); 


mysql> show databases # 显 示 数 据 库 名 清单 ，- -skip-show-database 可 禁止 该 功 
mysql> load data infile './db/xxx.frm' into table temp fields escaped by '' lines te 
mysql> select * from temp into outfile 'xxx.frm' fields escaped by '' lines terminatt 


mysql> delete from temp; 

mysql> load data infile './db/xxx.MYD' into table temp fields escaped by '' lines te 
mysql> select * from temp into outfile 'xxx.MYD' fields escaped by '' lines terminatet 
mysql> delete from temp; 

mysql> load data infile './db/xxx.MYI' into table temp fields escaped by '' lines ter 
mysql> select * from temp into outfile 'xxx.MYI' fields escaped by '' lines terminatk 
mysql> delete from temp; 


天 二 守土 


这 样 ， 你 的 数据 库 就 给 人 拷贝 到 本 地 了 。 如 果 服 务 器 是 运行 在 root 用 户 下 ， 那 危害 就 更 大 
了 ， 因 为 root 可 在 服务 器 上 做 任何 的 操作 。 所 以 尽量 不 要 用 root 用 户 来 运行 服务 器 。 





。 只 把 PROCESS 权 限 授予 可 信用 户 ， 该 用 户 可 查询 其 他 用 户 的 线程 信息 。 


e 不 要 把 RELOAD 权 限 授 了 予 无 关 用 户 ， 因 为 该 权限 可 发 出 FLUSH 或 RESET 语 句 ， 这 些 是 数 
据 库 管理 工具 ， 如 果 用 户 不 当 使 用 会 使 数据 库 管 理 出 现 问题 。 


e ALTER 权 限 也 不 要 授予 一 般 用 户 ， 因 为 该 权限 可 更 改 数据 表 。 
GRANT 语句 对 权限 表 的 修改 过 程 : 


e 当 你 发 送 一 条 GRANT 语 旬 时， 服务 器 会 在 user 权 限 表 里 创建 一 个 记录 项 并 把 你 用 户 名 、 
主机 名 和 口令 记录 在 User、Host 和 Password 列 中 。 如 果 设 置 了 全 局 权限 ， 由 把 该 设置 记 
录 在 相 在 的 权限 列 中 。 


e。 如 果 在 GRANT 里 设置 了 数据 库 级 权限 ， 你 给 出 的 用 户 名 和 主机 名 就 会 记录 到 db 权限 表 的 
User 和 Host 列 中 ， 数 据 库 名 记录 在 Db 列 中 ， 权 限 记 录 到 相关 的 权限 列 中 。 


。 接着 是 到 数据 表 和 数据 列 级 的 权限 设置 ， 设 置 方法 和 上 面 的 一 样 。 服 务 器 会 把 用 户 名 、 
主机 名 、 数 据 库 名 以 及 相应 的 数据 表 名 和 数据 列 名 记录 到 数据 表 中 。 


删除 用 户 权 限 其 实 就 是 把 这 些 权 限 表 中 相应 的 帐号 记录 全 部 删除 即 可 。 


5.3. 建立 加 蜜 连接 
加 密 连 接 可 提高 数据 的 安全 性 ， 但 会 降低 性 能 。 要 进行 加 密 连 接 ， 必 须 满足 以 下 要 求 : 


e。 User 权 限 表 里 要 有 相关 的 SSL 数 据 列 。 如 果 安 装 的 MySQL 服 务 器 是 4.0.0 版 的 ，user 权 限 
表 已 包含 相关 的 SSL 数 据 列 ， 否 则 ， 我 们 也 可 用 mysql fix_privilege_tables 脚 本 升级 权限 


e。 服务 器 和 客户 程序 都 已 经 编译 有 OpenSSL 支 持 。 首 先 要 安装 openssl， 在 编译 时 MySQL 
服务 器 时 加 --with-vio 和 --with-openssl 选 项 加 上 openssl 支 持 。 可 用 以 下 语句 查询 服务 器 是 


否 支 持 SSL : 


mysql> Show variables like 'have_openssl'; 


e 在 启动 服务 器 时 用 有 关 选 项 指明 证 书 文件 和 密 负 文件 的 位 置 。 在 建立 加 密 连 接 前 ， 要 准 
备 三 个 文件 ， 一 个 CA 证 书 ， 是 由 可 信赖 第 三 方 出 具 的 证 书 ， 用 来 验证 客户 端 和 服务 器 端 
提供 的 证 书 。CA 证 书 可 向 商业 机 构 购 买 ， 也 可 自行 生成 。 第 二 个 文件 是 证 书 文件 ， 用 于 
在 连接 时 向 对 方 证 明 自己 身份 的 文件 。 第 三 个 文件 是 密 钥 文件 ， 用 来 对 在 加 密 连 接 上 传 
输 数 据 的 加 密 和 解密 。MySQL 服 务 器 端的 证 书 文件 和 密 钥 文 件 必须 首先 安装 ， 在 sampdb 
发 行 版 本 的 SS| 目 录 里 有 几 个 供 参考 的 样本 文件 : ca-cert.pem(CA 人 证书 ) ，server- 
cert.pem( 服 务 器 证 书 )，server-key.pem( 服 务 器 公共 密 钥 )。 把 这 几 个 文件 拷贝 到 服务 器 
的 数据 目录 中 ， 再 在 选项 文件 里 加 上 以 下 内 容 : 


[mysqld] 
ssl-ca=/usr/local/mysql/data/ca-cert.pem 
ssl-cert=/usr/local/mysql/data/server-cert.pem 
ssl-key=/usr/local/mysql/data/server-key.pem 


重启 服务 器 ， 使 配置 生效 。 


。 要 想 让 某 个 客户 程序 建立 加 密 连 接 ， 必 须 在 调用 这 个 客户 程序 时 用 有 关 选 项 告诉 它 在 哪 
里 能 找到 其 证 书 文件 和 密 钥 文件 。 在 sampdb 发 行 版 的 ss| 目 录 中 提供 了 client-cert.pem( 客 
户 证 书 文件 )，client-key.pem( 客 户 密 铀 文件 )，CA 证 书 与 服务 器 使 用 同样 的 ca- 
cert.pem。 把 他 们 拷贝 到 个 人 目录 下 ， 并 在 .my.cnf 选 项 文件 中 指出 文件 位 置 ， 如 : 


[mysql] 
ssl-ca=/home/mysql/ca-cert.pem 
ssl-cert=/home/mysql/client-cert.pem 
ssl-key=/home/mysql/client-key.pem 


配置 完成 后 ， 调 用 mysql 程 序 运行 \s 或 SHOW STATUS LIKE 'SSL%' 命 令 ， 如 果 看 到 SSL: 
的 信息 行 就 说 明 是 加 密 连 接 了 。 如 果 把 SSL 相 关 的 配置 写 进 选项 文件 ， 则 默认 是 加 密 连 接 
的 。 也 可 用 mysql 程 序 的 --skip-ssl 选 项 取消 加 密 连 接 。 如 果 用 命令 行 方式 启用 加 密 连 接 可 
以 这 样 写 : 


% mysql --ssl-ca=ca-cert.pem --ssl-cert=client-cert.pem --ssl-key=client-key.pem 


可 用 GRANT 语 句 的 REQUIRE SSL 选 项 来 强制 用 户 使 用 加 密 连 接 。 

使 用 sampdb 发 行 版 的 证 书 可 以 建立 一 个 加 密 连 接 ， 但 由 于 该 文件 已 公开 ， 所 以 安全 性 不 好 ， 
我 们 可 以 在 测试 成 功 后 自行 建立 证 书 或 购买 商业 证 书 ， 以 提高 安全 性 。 如 何 自行 建立 SSL 证 书 
的 文档 在 sampdb 发 行 版 的 ssl/README 文 件 里 有 说 明 9 


Chapter 6. 数据 库 的 备份 、 维 护 和 修复 


数据 库 在 运行 中 ， 会 因为 人 为 因素 或 一 些 不 可 抗力 因素 造成 数据 损坏 。 所 以 为 了 保护 数据 的 
安全 和 最 小 停机 时 间 ， 我 们 需 制定 详细 的 备份 /恢复 计划 ， 并 定期 对 计划 的 有 效 性 进行 测试 。 
本 章 结合 MySQL 服 务 器 的 运行 机 制 和 所 提供 的 工具 ， 介 绍 如何 进 行 数据 库 的 备份 、 维 护 和 修 
复 oo 


以 下 是 几 点 防范 的 措施 
。 制定 一 份 数据 库 备 份 /恢复 计划 ， 并 对 计划 进行 仔细 测试 。 


e 启动 数据 库 服务 器 的 二 进 制 变更 日 志 ， 该 功能 的 系统 开销 很 小 ( 约 为 1%)， 我 们 没有 理由 
不 这 样 做 。 


。 定期 检查 数据 表 ， 防 范 于 未 燃 。 
。 定期 对 备份 文件 进行 备份 ， 以 防备 份 文件 失效 。 


e。 把 MySQL 的 数据 目录 和 备份 文件 分 别 放 到 两 个 不 同 的 驱动 器 中 ， 以 平衡 磁盘 |/O 和 增加 数 
据 的 安全 。 


6.1. 检查 /修复 数据 表 


对 数据 表 进 行 维护 最 好 通过 发 出 CHECK TABLE( 检 查 数据 表 ) 或 REPAIRE TABLE( 修 复数 据 表 ) 
命令 来 做 ， 这 样 MySQL 服 务 器 自动 进行 表 锁 定 以 协调 数据 表 中 数据 的 读 写 一 致 性 问题 。 也 可 
用 myisamchk 工 具 来 做 数据 表 的 维护 ， 但 它 直 接 访 问 有 关 的 数据 表 文 件 ， 不 通过 服务 器 ， 所 
以 需 人 为 地 协调 数据 表 数 据 的 读 写 一 致 性 问题 。 使 用 myisamchk 检 查 数 据 表 的 具体 操作 步骤 
如 下 : 


e。 以 mysql 客 户 端 程序 连接 服务 器 ， 并 发 出 LOCK TABLE 命 令 ， 以 只 读 方式 锁 住 数据 表 。 


% mysql 

mysql> use db 

mysql> LOCK TABLE table_name READ， # 以 只 读 方式 锁定 表 

mysql> FLUSH TABLE table_name # 关 闭 数据 表 文 件 ， 并 把 内 存 中 的 信息 写 入 磁盘 


。 保持 上 面 的 状态 不 退出 ， 另 开 一 个 shell 窗 口 ， 用 以 下 命令 维护 (检查 ) 数 据 表 。 
% myisamchk table_name 
如 果 不 保持 上 面 状态 ， 退 出 mysdq| 会 话 ， 则 表 锁 定 会 自动 取消 。 
。 维护 完成 ， 切 换 回 mysql 状 态 的 shell 窗 口 ， 发 出 以 下 命令 解除 表 锁 定 。 
mysql> UNLOCK TABLES ; 
使 用 myisamchk 修 复数 据 表 的 具体 操作 步骤 如 下 : 
e@ 进行 修复 操作 需 以 读 / 写 方式 锁定 数据 表 ， 命 令 如 下 : 


% mysql 

mysql> use db 

mysql> LOCK TABLE table name WRITE; # 以 读 / 写 方式 锁定 数据 表 
mysql> FLUSH TABLE table_name; 


e。 保持 mysql 客 户 端 连接 状态 ， 切 换 到 第 二 个 shell 窗 口 ， 运 行 修复 命令 : 


% myisamchk --recover table_name 


运行 修复 命令 前 最 好 先 备份 一 下 数据 文件 。 
。 修复 完成 后 ， 切 换 回 mysql 客 户 端 连接 窗口 ， 运 行 以 下 命令 解除 数据 表 锁 定 : 


mysql> FLUSH TABLE table_name; # 使 服务 器 觉察 新 产生 的 索引 文件 
mysql> UNLOCK TABLE; 


还 可 用 以 下 命令 锁定 所 有 表 ， 锁 定 后 ， 所 有 用 户 就 只 能 读 不 能 写 数 据 ， 这 样 就 可 使 我 们 外 
全 地 拷贝 数据 文件 。 


mysql> FLUSH TABLES WITH READ LOCK; 


下 面 是 解除 锁 语 句 : 


mysql> UNLOCK TABLES,; 


6.2. 备份 数据 库 


EE 安 


定期 的 备份 可 使 我 们 数据 库 崩 溃 造 成 的 损失 大 大 降低 。 在 MySQL 中 进行 数据 备份 的 方法 有 两 
种 ， 一 种 是 使 用 mysqldump 程 序 ， 一 种 是 使 用 mysqlhotcopy、cp、tar 或 cpio 等 打包 程序 直接 
拷贝 数据 库 文件 。mysqldump 程 序 备份 数据 库 较 慢 ， 但 它 生成 的 文本 文件 便于 移植 。 使 用 
mysqlhotcopy 等 程序 备份 速度 快 ， 因 为 它 直接 对 系统 文件 进行 操作 ， 需 人 为 协调 数据 库 数 据 
的 备份 前 后 一 致 性 。 


。 使 用 ee 实 就 是 把 数据 库 转 储 成 一 系列 CREATE TABLE 和 INSERT 
语句， 这 些 语句 我 们 就 可 重新 生成 数据 库 。 使 用 mysqldump 的 方法 如 下 : 


% mysqldump --opt testdb | gzip &gt; /data/backup/testdb.bak 

#- -0pt 选 项 会 对 转 储 过 程 进行 优化 ， 生 成 的 备份 文件 会 小 一 点 ， 后 的 管道 操作 会 进行 数据 压缩 

% mysqldump --opt testdb mytablel1,mytable2 | gzip &gt; /data/backup/testdb_mytable.be 
# 可 在 数据 库 后 接 数 据 表 名 ， 只 导出 指定 的 数据 表 ， 多 个 数据 表 可 用 去 号 分 隔 


站 | ES 
--0pt 选 项 还 可 激活 --add-drop-table 选 项 ， 它 将 会 在 备份 文件 的 每 条 CREATE TABLE 


前 加 上 一 条 DROP TABLE IF EXISTS 语 急 。 ee 表 的 更 新 ， 而 不 会 发 
生 “ 数 据 表 已 存在 "的 错误 。 





用 mysqldump 命 令 还 可 直接 把 数据 库 转移 到 另外 一 台 服 务 器 上 ， 不 用 生成 备份 文件 。 重 
复 执 行 可 定期 更 新 远程 数据 库 。 


% mysqladmin -h remote_ host create testdb 

% mysqldump --opt testdb | mysql -h remote_host testdb 
另外 还 可 通过 ssh 远 程 调 用 服务 器 上 的 程序 ， 如 : 

% ssh remote_host mysqladmin create testdb 

% mysqldump --opt testdb | ssh remote_host mysql testdb 


e@ 通过 直接 拷贝 系统 文件 的 方式 备份 数据 库 ， 在 备份 时 ， 要 确保 没有 人 对 数据 库 进行 修改 
操作 。 要 做 到 这 点 ， 最 好 关闭 服务 器 。 如 果 不 能 关闭 的 ， 要 以 只 读 方 试 锁定 有 关 数 据 
表 。 下 面 是 一 些 示 例 : 


% cp -r db /backup/db # 备 份 db 数 据 库 到 /backup/db 目 录 
% cp table name.* /backup/db # 只 备份 table_name 数 据 表 
% scp -r db remotehot:/usr/local/mysql/data # 用 SCp 把 数据 库 直 接 找 贝 到 远程 服务 器 


在 把 数据 库 直接 拷贝 到 远程 主机 时 ， 应 注意 两 人 台 机 器 必须 有 同样 的 硬件 结构 ， 或 者 
将 拷贝 的 数据 表 全 部 是 可 移植 数据 表 类 型 。 


。 使 用 mysqlhotcopy 工 具 ， 它 是 一 个 Perl DBI 脚 本 ， 可 在 不 关闭 服务 器 的 情况 下 备份 数据 
库 ， 它 主要 的 优点 是 


o 它 直 接 拷贝 文件 ， 所 以 它 比 mysqldump 快 。 
o 可 自动 完成 数据 锁定 工作 ， 备 份 时 不 用 关闭 服务 器 。 
o 能 刷新 日 志 ， 使 备份 文件 和 日 志文 件 的 检查 点 能 保持 同步 


下 面 是 该 工具 的 使 用 示例 : 


% mysqlhotcopy db /bakcup/ # 把 db 数据 库 备 份 到 backup/db 目 录 里 ， 会 自动 创建 一 
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。 使 用 BACKUP TABLE 语 勿 进行 备份 ， 该 语句 最 早出 现在 MySQL 3.23.25 版 本 中 ， 仅 适用 
于 MylISAM 数 据 表 。 用 法 如 下 : 


mysql> BACKUP TABLE mytable TO '/backup/db'; # 把 mytable 数 据 表 备份 到 /backup/db 目 


站 








为 了 执行 该 语句 ， 你 必须 拥有 那些 表 的 FILE 权 限 和 SELECT 权限 ， 备 份 目 录 还 必须 是 服 
务 器 可 写 的 。 该 语句 执行 时 ， 会 先 把 内 存 中 的 数据 写 入 磁盘 ， 再 把 各 个 数据 表 的 .frm( 表 
结构 定义 文件 )、.MYD( 数 据 ) 文 件 从 数据 目录 拷贝 到 备份 目录 。 它 不 拷贝 .MYI( 索 引 ) 文 
件 ， 因 为 它 能 用 另外 两 个 文件 重建 。BACKUP TABLE 语 句 备 份 时 ， 依 次 锁定 数据 表 ， 当 
同时 备份 多 个 数据 表 时 ， 数 据 表 可 能 会 被 修改 ， 所 以 备份 0 完成 时 ， 备 份 文件 中 的 数据 和 
现时 数据 表 中 的 数据 可 能 会 有 差异 ， 为 了 消除 该 差异 ， 我 们 可 用 只 读 方式 锁定 数据 表 ， 
在 备份 完成 后 再 解锁 。 如 : 

mysql> LOCK TABLES tb1 READ, tb2 READ; 


mysql> BACKUP TABLE tb1,tb2 TO 'backup/db'; 
mysql> UNLOCK TABLES ; 


使 用 BACKUP TABLE 语 句 备 份 的 数据 表 可 用 RESTORE TABLE 重 新 加 载 到 服务 器 。 


。 InnoDB 和 BDB 数 据 库 也 可 用 mysqldump 和 直接 拷贝 法 进行 备份 。 使 用 直接 拷贝 法 时 应 注 
意 需 把 组 成 InnoDB 和 BDB 数 据 库 的 所 有 文件 都 拷贝 下 来 ， 如 InnoDB 的 .fm 文件、 日 志 刀 
件 和 表 空 间 配 置 文件 ; BDB 的 数据 文件 、 日 志文 件 等 。 


e@ 使 用 镜像 机 制 进行 备份 ， 我 们 可 用 SLAVE STOP 语 句 挂 起 从 服务 器 的 镜像 ， 在 从 服务 器 
上 通过 直接 拷贝 法 或 其 它 工具 制作 备份 。 备 份 完 成 ， 用 SLAVE START 重 新 启动 镜像 ， 从 
服务 器 重新 与 主 服务 器 同步 ， 接 收 备份 时 主 服 务 器 所 做 的 修改 。 


在 MySQL 中 没有 为 数据 库 重 命名 的 命令 ， 但 我 们 可 用 mysqldump 转 储 数据 库 ， 再 创建 一 个 新 
的 空 数据 库 ， 把 转 储 文件 加 载 到 该 新 数据 库 ， 这 样 就 完成 数据 库 重 命名 的 工作 。 如 : 


% mysqldump old_db >db.sql # 转 储 db 数 据 库 数据 

% mysqladmin create new_db # 新 建 一 个 空 的 数据 库 

% mysql new_db < db.sql # 把 db 数据 库 的 数据 加 载 到 新 的 数据 库 中 
% mysqladmin drop old_db # 删 除 旧 的 数据 库 


一 个 更 简单 的 重 命名 数据 库 的 方法 是 直接 修改 数据 库 目 录 名 ， 但 该 方法 不 适用 于 InnoDB 和 
BDB 数 据 库 。 注 意 ， 在 更 名 后 ， 需 在 权限 表 中 更 新 相关 数据 表 信 息 ， 需 执行 以 下 语句 : 


mysql> UPDATE db SET db='new db' WHERE db="'old_db'; 

mysql> UPDATE tables_ priv SET db='new db' WHERE db="'old_db'; 
mysql> UPDATE columns_priv SET db='new db' WHERE db='old_db'; 
mysql> UPDATE host SET db='new db' WHERE db="'old_db'; 


6.3. 使 用 备份 恢复 数据 


恢复 过 程 包括 两 个 信息 源 --- 备 份 文 件 和 二 进 制 日 志 ， 备 份 文件 可 使 用 数据 恢复 到 执行 备份 时 
的 状态 ， 而 二 进 制 日 志 可 恢复 到 发 生 故 障 时 的 状态 。 下 面 分 别 介绍 如 何 利 用 这 两 个 文件 恢复 
一 个 数据 库 或 恢复 单个 数据 表 。 


恢复 整个 数据 库 的 步骤 : 
1， 把 需 恢 复 的 数据 库 的 整个 目录 的 内 容 拷贝 到 其 它 地 方 ， 以 备用 。 


2， 使 用 最 近 的 备份 文件 重 载 数据 库 。 如 果 使 用 mysqldump 生 成 的 备份 ， 则 可 使 用 它们 作为 
mysql 的 输入 重 载 ; 如 果 是 通过 拷贝 数据 库 目录 来 备份 的 ， 则 要 关闭 数据 库 服务 器 ， 再 把 
备份 重新 拷贝 到 数据 目录 ， 再 重启 数据 库 服务 器 。 


3， 通 过 二 进 制 日 志 重 做 事务 ， 恢 复 到 出 错 点 的 数据 。 具 体操 作 是 这 样 的 ， 用 mysqlbinlog 把 
日 志和 转换 成 ASCII 格 式 ， 再 把 它 作 为 mysql 的 输入 ， 并 指定 --one-database 选 项 ， 以 便 
mysql 只 执行 你 指定 的 数据 库 恢复 。 如 : 


% ls -t -r -1 binlog.[0-9]* | xargs mysqlbinlog | mysql --one-database db_name 


但 上 面 命令 只 适合 所 有 日 志文 件 名 有 具有 相同 长 度 的 情况 。 否 则 需 用 下 面 的 Perl 代 码 来 处 
理 : 


#!/Uusr/bin/perl -w 
# sort_num.pl 


use strict; 


my @files = &lt;&gt;; #read all input file 
@files = sort { my $anum = $1 if $a =~/\.(\d+)$/; #sort them by numeric exter 
my $bnum = $1 if $b =~/\.(\d+)$/; 
$anum &lt;=&gt; $bnum; 
} @files,; 
print @files,; #print them 
exit(0); 


如 下 使 用 该 脚本 : 
% ls -1 binlog.[0-9]* | sort_ num.pl | xargs mysqlbinlog | mysql --one-database db_nan 





上 面 讨论 的 是 需 所 有 日 志文 件 的 情况 ， 但 多 数 情况 下 我 们 只 需 备 份 后 生成 的 几 个 日 志 33 
件 ， 这 时 ， 可 用 以 下 命令 来 重 做 。 


% mysqlbinlog binlog.1234 | mysql --one-database db_name 
% mysqlbinlog binlog.1235 | mysql --one_database db_name 


如 果 我 们 需 恢 复 因 执行 DROP DATABASE，DROP TABLE 或 DELETE 语 句 而 损坏 的 数据 
库 ， 就 需 在 日 志文 件 中 删除 该 语句 ， 否 则 重 做 后 结果 还 是 一 样 。 所 以 需 把 日 志 转 换 成 
ASCIl 格 式 并 保存 起 来 ， 再 用 编辑 器 打开 该 文件 ， 删 除 这 些 语句 后 再 重 做 。 


如 果 使 用 文本 变更 日 志 ， 则 不 需 使 用 mysqlbinlog 程 序 ， 因 为 该 日 志文 件 本 身 就 是 
ASCII 格 式 。 


恢复 使 用 BACKUP TABLE 命 令 备份 的 数据 表 可 用 RESTORE TABLE 语 句 : 


备份 语 名 ; 

mysql> BACKUP TABLE table_name1l,table_name2 TO '/backup/table_ backup'; 
恢复 语句 : 

mysql> RESTORE TABLE table_name1, table name2 FROM '/backup/table_backup'; 


恢复 有 外 键 的 数据 表 ， 可 用 SET FOREIGN_KEY_CHECK = 0; 语 句 先 关闭 键 字 检查 ， 导 入 表 
后 再 重启 它 ， 赋 值 为 1 表示 检查 有 效 。 


恢复 InnoDB 表 空间 ， 当 服务 器 重启 时 ，lInnoDB 处 理 程序 会 执行 自动 恢复 工作 ， 通 过 选项 文件 
[mysqld] 段 中 的 set-variable=innodb force _ recovery=level 设 置 自动 恢复 的 级 别 ， 推 荐 典型 的 
启动 值 为 4。 如 果 需 从 备份 文件 恢复 ， 则 和 上 面 介 绍 的 方法 一 样 。BDB 数 据 表 的 恢复 也 一 样 ， 
启动 服务 器 时 它 会 进行 自动 恢复 。 


Chapter 7. MySQL 程 序 介 绍 


安装 完 MySQL 后 ， 在 MySQL 的 安装 目录 下 会 生成 很 多 有 用 的 程序 ， 下 面 对 这 些 程序 进行 一 一 
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。 libmysqld---- 苞 入 式 MySQL 服 务 器 ， 它 不 能 独立 运行 ， 它 是 一 个 函数 序 ， 可 瞬 入 到 其 它 程 
序 中 ， 使 程序 具有 MySQL 服 务 器 的 功能 。 


。 myisamchk 和 isamchk---- 检 查 和 修复 数据 表 、 分 析 键 值 的 分 布 情况 、 禁 止 或 启用 数据 表 
索引 的 工具 。 


。 myisampack 和 pack_isam---- 压 缩 数据 表 并 生成 只 读数 据 表 。 

。 mysql---- 最 常用 的 一 个 与 服务 器 交互 的 命令 行 客户 端 程序 。 

。 mysqlaccess---- 一 个 用 来 测试 数据 库 访问 权限 的 脚本 。 

。 mysqladmin---- 一 个 用 来 执行 各 种 系统 维护 和 管理 工作 的 工具 。 


。 mysqlbinlog---- 一 个 以 ASCII 格 式 显示 二 进 制 变更 日 志 内 容 的 工具 。 


mysqlbug---- 一 个 用 来 生成 程序 漏洞 报告 的 脚本 。 


mysql_config---- 当 准备 编译 基于 MySQL 的 程序 时 ， 可 以 利用 这 个 工具 程序 来 确定 该 程序 
的 编译 选项 和 标志 。 


mysqld----MySQL 服 务 器 程序 ，MySQL 数 据 的 核心 。 
mysqld_multi---- 一 个 用 来 同时 启动 和 关闭 多 个 MySQL 服 务 器 的 脚本 。 
mysql_safe---- 一 个 用 来 启动 和 监控 MySQL 服 务 器 的 脚本 。 
mysqldump---- 一 个 用 来 导出 数据 表 内 容 的 工具 。 
mysqlhotcopy---- 数 据 库 备份 工具 。 

mysqlimport---- 一 个 对 数据 表 批 量 加 载 数据 的 工具 。 
mysql_install_db---- 一 个 初始 化 系统 权限 表 和 数据 目录 的 脚本 。 
mysql.server---- 一 个 用 来 启动 和 关闭 MySQL 服 务 器 的 脚本 。 


mysqlshow---- 一 个 用 来 显示 数据 库 中 数据 表 的 工具 。 


Chapter 8. MySQL How-To 


8. 
$ 


1. 连接 数据 库 服务 器 


./mysql -h host_name -u user_name -p 


-h host_name(--host=host_name) ， 连接 的 数据 库 主机 名 ， 如 果 在 本 地 主机 上 则 可 省 略 y 


-U UsSer_name(--user=user_name) ， 数据 库 用 户 名 ， 在 unix 系 统 上 ， 如 果 系 统 的 登录 名 与 
数据 用 户 名 一 样 ， 则 可 省 略 。 在 windows 系 统 中 ， 可 通过 设置 环境 变量 USER 来 给 出 数据 
库 用 户 名 ， 如 set USER=username 。 


-p(--password) ， 提 供 数 据 库 用 户 密码 ， 有 该 选项 mysql 就 会 提示 你 输入 密码 。 输 入 的 密 
码 以 星 号 显示 ， 以 确保 安全 。 也 可 直接 在 -p 后 写 上 密码 (-p 和 密码 间 不 能 有 空格 )， 但 这 不 
安全 ， 不 推荐 。 


连接 成 功 后 ，mysql 数 据 库 服务 器 会 显示 一 些 欢迎 信息 。 接 着 就 可 用 mysql>use 
database_name 命 令 打 开 指 定 的 数据 库 。 


$ ./mysql -h host_name -u user_name -p database_name 命令 可 直接 打开 指定 数据 库 


8.2. 更 新 用 户 密 码 


mysql>update user set password=passowrd('your passowrd ' ) where host='%'; 


刷新 权限 设置 : mysql>flush privileges 


8.3. MySQL 读 取 配 置 文件 的 顺序 

my.cnf 是 MySQL 数 据 库 的 配置 文件 ， 它 存在 多 个 地 方 ， 在 /etc 目 录 ， 数 据 目 录 和 用 户主 目录 都 
有 。 放 在 不 同位 置 ， 里 面 的 选项 有 不 同 的 作用 范围 ， 下 面 是 MySQL 读 取 配 置 文件 的 顺序 和 作 
用 Lo] 


mysql 读 取 配 置 文件 的 顺序 : 


/etc/my.cnf Global options. 

DATADIR/my .cnf Server-specific options. 

defaults-extra-file The file specified with the --defaults-extra-file option. 
~/.my.cnf User-specific options. 


8.4. 重 设置 RE 密码 的 方法 


务 器 外 。MySQL 服 务 器 提供 了 2 ee sy he 
linux/unix 平 台 上 操作 稍 有 不 同 ， 下 面 分 别 介绍 : 


e Linux/Unix 平 台 下 : 


1. 用 % kill -TERM PID 关 闭 服 务 器 ， 用 -TERM 信息 可 使 服务 器 在 关闭 前 把 内 存 中 的 数 
。 。 如 果 服 务 器 没有 响应 ， 我 们 可 用 % kill -9 PID 来 强制 删除 进程 ， 但 不 建 
这 样 做 。 i aa ， 造 成 数据 不 完整 。 如 果 你 是 用 
ee safe 脚 本 启动 MySQL 服 务 器 的 ， 这 个 脚本 会 监控 服务 器 的 运行 情况 并 在 它 被 
终止 时 重启 服务 器 ， 所 以 如 需 关闭 服务 器 ， 要 先 终 止 该 进程 ， 然 后 再 卜 正 终止 
mysqld 进 程 。 


2. 使 用 --skip-grant-tables 参 数 启 动 MySQL Server， 这 时 MySQL 服 务 器 将 不 使 用 权限 表 
对 连接 操作 进行 验证 。 你 就 可 在 不 提供 root 密 码 的 情况 下 连接 上 服务 器 ， 并 获得 root 
的 权限 。 


% mysqld_safe --skip-grant-tables & 


3， 用 以 下 命令 登录 服务 器 ， 并 重 设 密码 : 


% mysql -u root # 不 用 密码 就 可 连接 到 服务 
mysql> use mysql 
mysql> set password for 'root'@'localhost' = password('password'); 


修改 MySQL 服 务 器 帐户 密码 有 三 种 方式 ， 你 可 参考 本 笔记 中 数据 库 日 常 管理 一 
章 中 的 相关 内 容 。 在 这 种 环境 下 ， 使 用 mysaladmin 修 改 密码 好 和 象 不 行 ， 还 是 提 
示 要 输入 密码 。 


4.， 关闭 服务 器 ， 再 用 正常 方式 启动 服务 器 。 
e windows 平 台 下 : 
1， 用 管理 员 帐 号 登录 服务 器 ， 关 闭 MySQL 数 据 库 服务 器 。 


2. 使 用 --skip-grant-tables 参 数 启动 服务 器 : 


c:\mysql\bin&gt;mysqld-nt --skip-grant-tables 


3， 重 新 打开 一 个 console 窗 口 ， 用 mysql 命 令 登录 服务 器 设置 root 的 新 密码 : 


c:\mysql\bin&gt;mysql 
mysql> use mysql 
mysql> set password for 'root'@'localhost' = password('password'); 


4.， 关闭 服 务 器 ， 再 用 正常 方式 启动 服务 器 。 


8.5. NULL 值 


NULL 是 空 值 ， 代表 什么 也 没有 。 它 不 能 与 值 进行 比较 操作 和 算术 操作 ， 也 不 能 和 NULL 进 行 
比较 ， 因 为 两 个 空 值 比较 是 没有 意义 的 。 我 们 可 用 "is NULL” 或 “is not NULL” 来 判断 是 不 空 
值 。 如 : 


mysql> select * from test where mytest is NULL; 
mysql> select * from test where mytest is not NULL; 


在 MySQL3.23 以 后 的 版 本 有 一 个 新 的 比较 操作 符 “<=>”， 它 可 对 NULL 值 进行 相等 比较 。 如 : 


mysql> select * from test where mytest <=> UNLL; 
mysql> select * from test where not (mytest <=>); 


如 果 查 询 后 排序 中 的 数据 中 包含 NULL， 则 从 MySQL4.0.2 开 始 ， 有 NULL 值 的 数据 行 总 是 出 现 
在 查询 结果 的 开头 ， 即 使 设置 的 desc 参 数 。4.0.2 以 前 版 本 ， 如 果 设 置 了 asc， 则 出 在 查询 结果 
的 开头 ， 如 果 设 置 了 desc， 则 出 现在 查询 结果 的 结尾 。 


8.6. 使 用 SQL 交 量 


MySQL3.23.6 以 后 的 版 本 允许 通过 查询 结果 来 设置 变量 ， 设 置 好 的 变量 可 在 以 后 使 用 。 变 量 
用 @name 定 义 ， 赋 值 方式 用 @name:=value。 下 面 是 一 个 在 查询 语 多 中 进行 典 值 和 使 用 变量 
的 例子 : 


mysql> select @name:=id from test where mytest="test",; 
mysql> select * from test where mytest=@name 


8.7. 改变 默认 提示 符 


用 mysql 登 录 进 数据 库 后 ，MySQL 数 据 的 默认 提示 符 是 “mysql"， 我 们 可 设置 它 根据 用 户 打开 
的 数据 库 名 而 变化 ， 如 : 


mysql>prompt \d>\_ 
none>use test 
test>use mysql 
mysql> 


prompt 为 设置 命令 ，\d 代 表 当 前 数据 库 ， 代表 一 个 空格 。 


8.8. 非 优化 的 全 数据 表 DELETE 操 作 


为 了 清空 数据 表 ， 又 需 知道 删除 的 行 数 和 保持 AUTO_INCREMENT 序 列 的 值 ， 需 用 以 下 的 删 


除 语句 : 


# delete from table name where 1; 


8.9. MySQL 事 务 处 理 示例 


MYSQL 高 级 特性 -- 事务 处 理 下 面 以 两 个 银行 账户 之 间 的 转账 为 例子 进行 演示 。 要 使 用 
MySQL 中 的 事务 处 理 ， 首 先 需要 创建 使 用 事务 表 类 型 (如 BDB = Berkeley DB 或 InnoDB) 的 
表 。 


CREATE TABLE account ( 

account_id BIGINT UNSIGNED NOT NULL _ PRIMARY KEY AUTO_INCREMENT， 
balance DOUBLE 

) TYPE = InnoDB， 


要 在 事务 表 上 使 用 事务 处 理 ， 必 须要 首先 关闭 自动 提交 : 


SET AUTOCOMMIT = 0; 


事务 处 理 以 BEGIN 命 令 开 始 : 


BEGIN; 


现在 mysql 客 户 处 在 于 服务 器 相关 的 事物 上 下 文中 。 任 何 对 事务 表 所 做 的 改变 在 提交 之 前 不 会 
成 为 永久 性 的 改变 。 


UPDATE ACCOUNT SET balance 
UPDATE ACCOUNT SET balance 


50.25 WHERE account_id = 1; 
100.25 WHERE account_ id = 2;，; 


在 做 出 所 有 的 改变 之 后 ， 使 用 COMMIT 命 令 完成 事务 处 理 : 


COMMIT; 


当然 ， 事 务 处 理 的 申 正 优点 是 在 执行 第 二 条 语句 发 生 错 误 时 体现 出 来 的 ， 若 在 提交 前 终止 整 
个 事务 ， 可 以 进行 回 滚 操作 : 


ROLLBACLK ， 


下 面 是 另 一 个 例子 ， 通 过 MYSQL 直 接 进行 数学 运算 : 


SELECT @first := balance FROM account WHERE account_ id = 1; 
SELECT @second := balance FROM account WHERE account_ id = 2; 
UPDATE account SET balance = @first - 25.00 WHERE account id = 1; 
UPDATE account SET balance = @second + 25.00 WHERE account_ id = 2; 


除了 COMMIT 命 令 外 ， 下 列 命令 也 会 自动 结束 当前 事务 : 


ALTER TABLE 
BEGIN 

CREATE INDEX 
DROP DATABASE 
DROP TABLE 
LOCK TABLES 
RENAME TABLE 
TRUNCATE 
UNLOCK TABLES 
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现时 国内 python 的 中 文 资 料 极 少 ， 使 学 习 Python 较 困难 。 国 外 的 资料 虽 多 ， 但 都 是 英文 的 ， 
使 我 们 学 习 起 来 很 不 方便 。 有 鉴于 此 ， 我 开始 了 Python 中 文 资料 库 的 整理 工作 ， 以 推动 
ARE 国 的 应 用 。 在 自由 的 世界 里 ， 正 因为 有 你 的 支持 和 帮助 ， 才 使 我 得 以 不 
断 前 进 。 我 相信 我 们 每 人 一 小 步 就 可 带动 python 在 中 国 前 进 一 大 步 。 
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Chapter 1. 绪论 


1.1. Python 历史 


Python 有 是 一 种 开源 的 面向 对 象 的 脚本 语言 ， 它 起 源 于 1989 年 末 ， 当 时 ，CWI (阿姆斯特丹 国 

家 数学 和 计算 机 科学 研究 所 ) 的 研究 员 Guido van Rossum 需 要 一 种 高 级 脚本 编程 语言 ， 为 其 
研究 小 组 的 Amoeba 分 布 式 操作 系统 执行 管理 任务 。 为 创建 新 语言 ， 他 从 高 级 数学 语言 

ABC (ALL BASIC CODE ) 汲取 了 大 量 语法 ， 并 从 系统 编程 语言 Modula-3 人 借鉴 了 错 语 处 理 机 
制 。Van Rossum 把 这 种 新 的 语言 命名 为 Python (大 蟒蛇 ) --- 来 源 于 BBC 当时 正在 热 播 的 喜剧 
连续 剧 “Monty Python”。 


Python 于 1991 年 初 公 开发 行 ， 由 于 功能 强大 和 采用 开源 方式 发 行 ，Python 的 发 展 得 很 快 ， 用 
户 越 来 越 多 ， 形 成 了 一 个 强大 的 社区 力量 。2001 年 ，Python 的 核心 开发 团队 移师 Digital 
Creations 公 司 ， 该 公司 是 Zope (一 个 用 Python 编 写 的 web 应 用 服务 器 ) 的 创始 者 。 现 在 最 新 
的 版 本 是 python2.3.4， 大 家 可 到 http://www.python.org 上 了 解 最 新 的 Python 动 态 和 资料 。 


KEE 
1.2. Python 功能 简介 
Python 是 一 种 解析 性 的 ， 交 互 式 的 ， 面 向 对 象 的 编程 语言 ， 类 似 于 Perl、Tcl、Scheme 或 
Java。 
Python 一 些 主要 功能 介绍 
。 Python 使 用 一 种 优雅 的 语法 ， 可 读 性 强 。 


。 Python 是 一 种 很 灵活 的 语言 ， 能 帮 你 轻松 完成 编程 工作 。 并 可 作为 一 种 原型 开发 语言 ， 
加 快 大 型 程序 的 开发 速度 。 


e。 有 多 种 数据 类 型 : numbers (integers, floating point, complex, and unlimited-length long 
integers), strings (ASCI 和 Unicode), lists, dictionaries。 


Python 支持 类 和 多 层 继承 等 的 面向 对 象 编程 技术 。 


代码 能 打包 成 模块 和 包 ， 方 便 管理 和 发 布 。 


e。 支持 异常 处 理 ， 能 有 效 捕获 和 处 理 程序 中 发 生 的 错误 。 


强大 的 动态 数据 类 型 支持 ， 不 同 数据 类 型 相 加 会 引发 一 个 异常 。 


Python 支持 如 生成 器 和 列表 获 套 等 高 级 编程 功能 。 


自动 内 存 碎片 管理 ， 有 效 利 用 内 存 资 源 。 


强大 的 类 库 支 持 ， 使 编写 文件 处 理 、 正 则 表达 式 ， 网 络 连接 等 程序 变 得 相当 容易 。 


Python 的 交互 命令 行 模 块 能 方便 地 进行 小 代码 调试 和 学 习 。 


Python 易于 扩展 ， 可 以 通过 C 或 C++ 编写 的 模块 进行 功能 扩展 。 


Python 解 析 器 可 作为 一 个 编程 接口 诅 入 一 个 应 用 程序 中 。 


。 Python 可 运行 在 多 种 计算 机 平台 和 操作 系统 中 ， 如 各 位 unix，windows，MacOS,OS/2 等 


村 “。 


Python 有 是 开源 的 ， 可 自由 免费 使 用 和 发 布 ， 并 且 可 用 于 商业 用 途 以 获取 利润 。 如 想 详细 
了 解 Python 的 许可 协议 可 到 以 下 网 址 查询 http://www.python.org/psf/license.html 


1.3. 应 用 范围 


e 系统 编程 ， 提 供 大 量 系统 接口 API， 能 方便 进行 系统 维护 和 管理 。 
e 图 形 处 理 ， 有 PIL、Tkinter 等 图 形 库 支持 ， 能 方便 进行 图 形 处 理 。 
。 数学 处 理 ，NumPy 扩 展 提供 大 量 与 许多 标准 数学 库 的 接口 ， 


。 文本 处 理 ，python 提 供 的 re 模块 能 支持 正则 表达 式 ， 还 提供 SGML，XML 分 析 模 块 ， 许 多 
程序 员 利 用 python 进 行 XML 程 序 的 开发 。 


e 数据 库 编程 ， 程 序 员 可 通过 遵循 Python DB-API (数据 库 应 用 程序 编程 接口 ) 规范 的 模块 
与 Microsoft SQL Server，Oracle，Sybase，DB2，Mysql 等 数据 库 通信 。python 自 带 有 
一 个 Gadfly 模 块 ， 提 供 了 一 个 完整 的 SQL 环境 。 


e。 网 络 编程 ， 提 供 丰 富 的 模块 支持 sockets 编 程 ， 能 方便 快速 地 开发 分 布 式 应 用 程序 。 
e 作为 Web 应 用 的 开发 语言 ， 支 持 最 新 的 XML 技术 。 


e。 多 媒体 应 用 ，Python 的 PyOpenGL 模 块 封装 了 “OpenGL 应 用 程序 编程 接口 ， 能 进行 二 维 
和 三 维 图 像 处 理 。PyGame 模 块 可 用 于 编写 游戏 软件 。 


1.4. 如 何 开始 ? 


e。 进入 交互 命令 行 方式 。 如 果 是 linux 类 的 系统 ，python 解 析 器 应 该 已 经 安装 
在 /usrlocal/bin/python 中 ， 直 接 打 python 就 可 进入 交互 式 命令 行 界面 ， 如 下 所 示 : 


Python 2.3.3 (#1, Apr 27 2004, 15:17:58) 

[GCC 3.2 20020903 (Red Hat Linux 8.0 3.2-7)] on linux2 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 


“>>>" 符 号 是 Python 命令 行 界面 的 提示 符 ， 可 按 CTRL+D 退 出 ， 如 果 是 windows 环 境 的 话 
就 要 按 CTRL+Z 了 。 还 可 以 用 以 下 命令 退出 命令 行 界面 : “import sys ; sys.exit()”。 如 果 
是 Windows 系 统 ， 可 到 http://www.python.org/download/ 下 载 最 新 的 安装 程序 进行 安装 。 
安装 完成 后 直接 打 python 也 可 进入 命令 行 界面 。 命 令 行 是 python 最 简单 直观 ， 也 是 最 方 
便 的 一 种 执行 环境 ， 我 们 可 以 在 这 里 学 习 python 语 法 和 调试 程序 。 如 果 要 打印 "hello 
world" 可 以 输入 以 下 命令 : 


>>>print "hello world" 
hello world 


e 以 模块 文件 方式 运行 。 模 块 文件 是 包含 python 语 名 的 文本 ， 以 .py 结尾 。 运 行 模块 文件 只 
要 输入 python xxx.py 就 可 以 了 。 


e 以 linux 脚 本 方式 运行 。 和 shell 脚 本 差不多 ， 以 Vi 或 其 它 文 本 编辑 器 输入 以 下 内 容 


#!/usr/local/bin/python 
Desi 人 站 和 二 二 丈 4 


存盘 后 ， 把 文件 属性 改 为 可 执行 ， 就 可 象 shell 脚 本 一 样 执行 了 。 
。 Table 1.1. Python 命令 行 选项 


| 选项 | 作用 | 

| | | 

| -c cmd | 在 命令 行 直接 执行 bython 代 码 。 如 python -c 'print "hello world"'。 

| -d | 脚本 编译 后 从 解释 器 产生 调试 信息 。 同 PYTHONDEBUG=1。 | 

| -E | 忽略 环境 变量 。 | 

| | 显示 python 命 令 行 选 项 帮助 信息 。 

| -i | 脚本 执行 后 马上 进入 交互 命令 行 模式 。 同 PYTHONINSPECT=1。 | 

| | 在 执行 前 对 解释 器 产生 的 字 节 码 进行 优化 。 同 PYTHONOPTIMIZE=1。 

| -00 | 在 执行 前 对 解释 器 产生 的 字 节 码 进行 优化 ， 并 删除 优化 代码 中 的 点 入 式 文档 字符 串 。 | 
| -Q arg | 除法 规则 选项 ，-Qold(default)，-Qwarn，-Qwarnal1，-Qnew。 | 
| 

| 

| 

| 

| 

| 

| 

| 

| 





-S | 解释 器 不 自动 导入 Site.py 模 块 。 
| 当 脚 本 的 tab 缩 排 格 式 不 一 致 时 产生 警告 。 | 
-U | 不 缓冲 stdin、stdout 和 stderr， 默 认 是 缓冲 的 。 同 PYTHONUNBUFFERED=1 。 
| 产生 每 个 模块 的 信息 。 如 果 两 个 -V 选 项 ， 则 产生 更 详细 的 信息 。 同 PYTHONVERBOSE=x。 | 
-V | 显示 Python 的 版 本 信息 。 | 
-W arg | 出 错 信 息 控制 。(arg is action:message:category:module:lineno) | 
-X | 忽略 源 文件 的 首 行 。 要 在 多 平台 上 执行 脚本 时 有 用 。 | 
file | 执行 file 里 的 代码 。 | 
- | 从 stdin 里 读 取 执 行 代码 。 | 


Chapter 2. Python 编程 习惯 与 特点 


2.1. 代码 风格 


。 在 Python 中 ， 每 行程 序 以 换行 符 代表 结束 ， 如 果 一 行程 序 太 长 的 话 ， 可 以 用 必 符 号 扩展 
到 下 一 行 。 在 python 中 以 三 引号 ("") 括 起 来 的 字符 串 ， 列 表 ， 元 组 和 字典 都 能 跨行 使 用 。 
并 且 以 小 括号 (.…)、 中 括号 [...] 和 大 括号 {..} 包 围 的 代码 不 用 加 尽 符 也 可 扩展 到 多 行 。 如 : 


。 在 Python 中 是 以 缩 进来 区 分 程序 功能 块 的 ， 缩 进 的 长 度 不 受 限制 ， 但 就 一 个 功能 块 来 
讲 ， 最 好 保持 一 致 的 缩 进 量 。 

e 如 果 一 行 中 有 多 条 语句 ， 语 句 间 要 以 分 号 (;) 分 隔 。 

e 以 ' 捍 号 开头 的 内 容 为 注释 ，python 解 释 器 会 忽略 该 行内 容 。 

。 在 python 中 ， 所 有 标识 符 可 以 包括 英文 、 数 字 以 及 下 划 线 (_) ， 但 不 能 以 数字 开头 。 
python 中 的 标识 符 是 区 分 大 小 写 的 。 

。 以 下 划 线 开头 的 标识 符 是 有 特殊 意义 的 。 以 单 下 划 线 开头 〈_foo) 的 代表 不 能 直接 访问 
的 类 属性 ， 需 通过 类 提供 的 接口 进行 访问 ， 不 能 用 “from xxx import ”而 导入 ; 以 双 下 划 
线 开头 的 (foo) 代表 类 的 私有 成 员 ; 以 双 下 划 线 开头 和 结尾 的 (foo ) 代表 
python 里 特殊 方法 专用 的 标识 ， 如 ”init () 代表 类 的 构造 函数 。 


e@ 在 交互 模式 下 运 


云 行 python 时 ， 一 个 下 划 线 字符 (_) 是 特殊 标识 符 ， 它 保留 了 表达 式 的 最 后 


一 个 计算 结果 记 
>>> "hello" 
'hello' 
>>> 
'hello' 
>>> 10+10 
20 
>>> 
20 


。 在 python 中 ， 


串 ， 可 通过 | 


def test() : 


函数 、 


、 模 块 定 义 的 第 一 段 代 码 如 果 是 字符 串 的 话 ， 就 把 它 叫 作 文件 字 


a 问 。 如 : 


"this is a document string" 


return 100+1000 


>>>print test. 


oc 


this is a document string 


2.2. 保留 字 


and 
assert 
break 
class 
continue 
def 

del 


2.3. Python 运 


2.3.1. Python 运 


Table 2.1. Python 运算 符 列 


elif global or yield 
else if pass 
except import print 
exec in raise 
finally is return 
for lambda try 
from not while 
大 和 大 大 N ~ 
看 符 和 表达 式 
看 付 和 农 达 工 
镶 扩大 


形体 


表 


Table 2.2. 运 放 


x+y » x-y 
X*y ’ x**y» x/y » x%y 


< 二 


re ES a Ce 
>>=，&=，^=，|= 


xly 

x^y 

X&y 

SX 

X<<，X>>y 

is, is not 

in, not in 
or，and，not 

x[i] ? x[i:j] ? x.y ? x(...) 
人 


2.3.2. 运算 符 优先 顺序 


首 述 
加 、 减 ，“+" 号 可 重 载 为 连接 符 


相 乘 、 求 平方 、 相 除 、 求 余 ，“ ”号 可 重 载 为 重 
复 ，“%” 号 可 重 载 为 格式 化 


按 位 取 反 
左 或 向 右 移 y 位 
等 同 测试 
是 否 为 成 员 测 试 
逻辑 运 站 符 
索引 ， 分 片 ， 限 定 引 用 ， 函 数 调用 


元 组 ， 列 表 ， 字 典 ， 转 化 为 字符 串 


算 符 优 先 顺序 列表 (从 最 高 到 最 低 ) 


expr 
{key:expp 
[expr1,expr2...] 
(expr1,expr2,...) 
function(expr,...) 
x[index:index] 
x[index] 
x.attribute 

~X 

+X ，-X 


火炎 


x y 

Xx*y »? xX/ly » x%y 
X+y，X-y 
X<<y，X>>y 
X&y 

XAY, 


xly 


x<y ’ x<=y ， x==y » x!=y » Xx>=y » x>y 


xisy’xisnoty 
xiny’ xnotiny 
not x 

xandy 

xory 


lambda arg,...:expr 


2.3.3. 丨 值 表 


Table 2.3. 


切片 

下 标 索 引 取 值 
属性 引用 
按 位 取 反 
FE 

震 

乘 ， 除 ， 取 模 
加 ， 减 

移 位 

按 位 与 
按 位 异 或 

按 位 或 

比较 

等 同 测试 
成 员 判 断 
逻辑 否 
逻辑 与 
逻辑 或 
Lambda 匿 名 函数 


对 象 /常量 值 


AL) 假 
"string" 站 
0 假 
之 三 中 站 
< 三 =1 站 
() 空 元 组 假 
中 空 列表 假 
分 空 字 典 假 
None 假 


2.3.4. 复合 表达 式 


。 对 于 and， 当 计算 a and b 时 ，python 会 计算 a， 如 果 a 为 假 ， 则 取 a 值 ， 如 果 a 为 真 ， 则 
python 会 计算 b 且 整个 表达 式 会 取 b 值 。 如 : 


>>> a,b=10, 20 
>>> a and b #a is true 


>>> a,b=0,5  #a is false 


e。 对 于 or， 当 计算 a or b 时 ，python 会 计算 a， 如 果 a 为 点 ， 则 整个 表达 式 取 a 值 ， 如果 a 为 
假 ， 表 达 式 将 取 b 值 。 如 : 


>>> a,b=10, 20 
>>> a or b 


>>> a,b=0,5 
>>> a or b 


e。 对 于 not，not 将 反 转 表 表 达 式 的 “实际 值 ”， 如 果 表 达 式 为 幢 ，not 为 返回 假 ， 如 为 表达 式 为 
假 ，not 为 返回 上 监 。 如 : 


>>> not 2 
False 

>>> not 0 
True 

>>> not "test" 
False 

>>> not mn 
True 


2.4. 给 变量 赋值 
。 简单 赋值 ，Variable( 交 量 )=Value( 值 )。 


>>>a=1 
>>>b=2 
>>>print a,b 
下 > 汉 


e 多 变量 赋值 ，Variable1,variable2,...=Value1,Value2,…. 


>>>a,b,c=1,2,3 
>>>print a 

lb 

>>>print b 

2 

>>>print c 

3 


多 变量 赋值 也 可 用 于 变量 交换 ， 接 上 例 : 


>>>a,b,c=c,b,a 
>>>print a 

3 

>>>print b 

2 

>>>print c 

lb 


e。 多 目标 赋值 ，a=b=variable 


>>> a=b=1 


。 自 变 赋值 ， 如 +=，-=，*= 等 。 在 自 变 赋 值 中 ，python 仅 计 工 一 次 ， 而 普通 写法 需 计 和 草 两 
次 ; 自 变 赋值 会 修改 原始 对 象 ， 而 不 是 创建 一 个 新 对 象 。 


Chapter 3. Python 内 建 对 象 类 型 


在 Python 中 ， 所 有 数据 都 是 对 象 ， 数 据 有 各 种 类 型 ， 如 数值 型 、 列 表 型 、 字 符 串 型 等 。 除 系 
统 内 建 的 数据 类 型 外 ， 程 序 员 也 可 以 创建 自己 的 数据 类 型 。 以 下 主要 介绍 Python 内 建 的 数据 


3.1. Number 数 值 型 


在 python 中 ， 数 值 有 四 种 类 型 ， 分 别 是 整 型 、 长 整形 、 浮 点 型 和 复数 。 


e。 整 型 --- 从 -2147483648 至 2147483647， 有 符号 位 32 位 长 ， 可 表达 的 最 大 数 为 2\31-1。 
如 : number=123，number1=-123。 在 数字 前 加 0x 或 0X 前 组 表示 十 六 进 制 数 ， 在 数字 前 
加 前 组 0 表示 八进制 数 ， 与 C/C++ and perl 一 样 。 


为 方便 起 见 ，Ssys 模 块 包 含 一 个 maxint 成 员 ， 该 成 员 保留 了 整形 变量 的 最 大 正 数值 。 


>>> import sys 
>>> print sys.maxint 
2147483647 


e@ 长 整 python 六 村 信访 大 太 度 的 长 整 型 ， 长 整 型 的 最 大 值 和 最 小 值 由 可 用 的 内 存 确 定 。 
长 整 型 数 在 数字 常量 尾 加 L or 1， 一般 都 是 用 L， 因 为 小 写 的 | 太 容 多 与 数字 1 混淆 了 。 如 : 
long=1232132131231232132132131L 。 


。 浮 点 数 ---python 支 持 普 通 十 进 制 和 科学 计数 法 表示 的 浮 点 数 。 如 : number=123.456 ， 
nubmer1=123.2E10。 浮 点 数 在 python 中 的 存储 格式 与 C 中 的 双 精 度数 相同 。 


e 复数 --- 复 数 的 实 部 和 虚 部 用 加 号 分 开 ， 虚 部 使 用 后 级 ] 表 示 ， 如 : number=1.2+2j 


3.2. String 字 符 串 型 


。 字符 串 在 python 被 看 成 是 单个 字符 的 序列 ， 具 有 序列 对 象 的 特殊 功能 ， 字 符 囊 是 固定 
的 ， 不 可 变 的 。 如 : string="hello world"。 


e 可 在 字符 串 中 使 用 单 引 号 和 双 引 号 。 如 : string="lm a boy"。 


。 字符 囊 内 部 的 一 个 反 儿 杠 “可 允许 把 字符 囊 放 于 多 行 : 如 : 


>>> "test \ 
... python" 
"test python’' 


。 使 用 三 个 单 引 号 或 双 引 号 可 使 字符 串 跨行 显示 。 如 : 


helptext="""this a help test.if you have any quesions. 
please call me anytime.I will help you.I 
like python.I hope so as you.""" 


。 使 用 “+" 号 可 连接 字符 串 。 如 : string = "hello" + "world"， 注 意 ， 不 能 将 字符 串 与 其 它 对 象 
行 连接 。 如 string = "ok" + 5。 其 实 不 用 “+" 号 ， 直 接 用 空格 也 可 连接 两 个 字符 串 。 如 : 


string="hello" "world" ° 


。 可 用 “*” 号 重复 字符 串 ， 如 : 'hello*5 会 生成 'hellohellohellohellohello' 。 

。 可 用 索引 访问 字符 串 中 的 字符 。 如 : string="hello world"，print string[1] 将 显示 字符 e。 
e。 字符 串 可 用 in 或 not in 运算 符 来 测试 字符 是 不 属于 一 个 字符 串 的 成 员 。 

e。 可 对 字符 串 分 片 ， 如 string="hello world",print string[6:] 将 显示 world。 分 片 的 格式 为 : 


string[start:end] 


分 片 和 索引 的 规则 如 下 : 
@ 返回 的 字符 串 包 含 从 start 起 始 到 end 但 不 包括 end 结 束 的 所 有 字符 。 
o 若 指 定 了 start 但 未 指定 end， 则 一 直 向 后 分 片 ， 直 至 字符 串 结束 。 
o 若 指 定 了 end 但 未 指定 start， 则 从 0 开始 分 片 直 至 end， 但 不 包括 end 指 定 的 字符 。 
o 若 start 和 end 为 负数 ， 则 索引 从 字符 串 尾 部 开始 算 起 ， 最 后 一 个 字符 为 -1。 


python 提 供 了 一 个 string 模 块 来 进行 字符 串 处 理 。 


3.2.1. 字符 串 的 格式 化 
象 C 中 的 sprintf 鸣 数 一 样 ， 可 以 用 “%” 来 格式 化 字符 囊 。 


Table 3.1. 字符 串 格式 化 代码 


格式 描述 


%% 百 分 号 标记 

%c 字符 及 其 ASCII 码 

%s 字符 串 

%d 有 符号 整数 (十 进 制 ) 

%u 无 符号 整数 (十 进 制 ) 

%o 无 符号 整数 (八进制 ) 

%x 无 符号 整数 (十 六 进 制 ) 

%X 无 符号 整数 (十 六 进 制 大 写字 符 ) 

%e 浮 点 数字 (科学 计数 法 ) 

%E 浮 点 数字 (科学 计数 法 ， 用 E 代 替 e) 
%f 浮 点 数字 (用 小 数 点 符号 ) 

%g 浮 点 数字 (根据 值 的 大 小 采用 %e 或 %f) 
%G 浮 点 数字 (类 似 于 %g) 

%p 指针 (用 十 六 进 制 打印 值 的 内 存 地 址 ) 
%n 存储 输出 字符 的 数量 放 进 参数 列表 的 下 一 个 变量 中 


% 格 式 化 符 也 可 用 于 字典 ， 可 用 %(name) 引 用 字典 中 的 元 素 进行 格式 化 输出 。 


负 号 指 时 数字 应 该 是 左 对 齐 的 ，“0” 告 诉 Python 用 前 导 0 卉 充 数字 ， 正 号 指 时 数字 总 是 显 
示 它 的 正 负 (+，-) 符 号 ， 即 使 数字 是 正 数 也 不 例外 。 


可 指定 最 小 的 字段 宽度 ， 如 : "%5d" % 2。 也 可 用 句点 符 指 定 附 加 的 精度 ， 如 : "%.3d" 
% 3。 


3.2.2. 转 义 字符 
在 需要 在 字符 中 使 用 特殊 字符 时 ，python 用 反 斜 杠 () 转 义 字 符 。 如 下 表 : 


Table 3.2. python 支 持 的 转 义 字符 表 


品尝 习 筷 >3 其 有) 秘 
FYytNON 子 了 已 毛 1TC 公 钾 恒 


转 义 字符 描述 
(在 行 尾 时 ) 续 行 符 
\ 反 斜 杠 符号 
\ 单 引 号 
W 双 引 号 
\a 响 铃 
\b 退 格 (Backspace) 
\e 转 义 
\000 空 
\n 换行 
\ 纵向 制 表 符 
\t 横向 制 表 符 
\r 回 车 
\f 换 页 
\oyy 八进制 数 yy 代 表 的 字符 ， 例 如 : \o12 代 表 换 行 
\xyy 十 进 制 数 yy 代 表 的 字符 ， 例 如 : \X0a 代 表 换 行 
\other 其 它 的 字符 以 普通 格式 输出 


3.2.3. Unicode 字 符 串 


在 python2.0 中 才 完 全 支持 Unicode 字 符 串 ，Unicode 字 符 采 用 16 位 (0---65535) 值 表示 ， 能 进 和 
多 语言 支持 。 要 使 用 Unicode 字 符 串 ， 只 要 在 字符 串 前 加 上 "u" 即 可 。 如 : 


>>> a=u"test" 
>>> print a 
test 


原始 Unicode 字 符 串 用 ur 前 级 ， 如 : 


>>> u'hello world\0020" 
u'hello world\x020" 
>>> ur'hello world\0020" 
u'hello world\\0020' 


3.2.3.1. Unicode 转 换 


只 要 和 Unicode 连 接 ， 就 会 产生 Unicode 字 串 。 如 : 


>>> 'help' 

'help' 

>>> "help，' + U'python' 
u'help’ python' 


对 于 ASCII(7 位 ) 兼 容 的 字 串 ， 可 和 内 置 的 str() 况 数 把 Unicode 字 串 转 换 成 ASCl| 字 囊 。 如 : 


>>> str(u'hello world') 
'hello world' 


转换 非 ASCII 兼 容 的 字 串 会 出 错 。 编 码 和 译 码 字符 串 时 的 错误 引发 UnicodeError 异 常 。 


可 使 用 encode() 函 数 转 换 Unicode 字 串 格式 : 


u'unicode\xb1i\xe0\xc2\xeb\xb2\xe2\xca\xd4' 
>>> a.encode('utf-8')  # 转 换 成 Utf-8， 显 示 结果 会 根据 终端 的 字符 集 支持 不 同 而 不 同 ， 下 面 是 在 GB18030 下 的 
'unicode\xc2\xb1i\xc3\xa0\xc3\x82\xc3\xab\xc2\xb2\xc3\xa2\xc3\x8a\xc3\x94' 


本 一 


可 使 用 unicode() 元 数 把 字符 囊 转 换 成 unicode 格 式 ， 如 : 





>>> a=u'Unicode 测 试 ' 

>>> a 

u'unicode\xb2\xe2\xca\xd4' 

>>> a.encode('utf-8') # 把 unicode 字 串 转 换 成 Utf-8 
'unicode\xc2\xb2\xc3\xa2\xc3\x8a\xc3\x94' 

>>> b=a.encode('utf-8')  # 给 变量 b 赋 值 


>>> b 

'unicode\xc2\xb2\xc3\xa2\xc3\x8a\xc3\x94' 

>>>unicode(b, 'utf-8') # 用 unicode( ) 函 数 把 utf-8 格 式 字 串 转换 回 unicode 格 式 。 
u'unicode\xb2\xe2\xca\xd4' # 和 原始 的 这 是 a 相同 


ord() 支 持 unicode， 可 以 显示 特定 字符 的 Unicode 号 码 ， 如 : 


>>>ord('A') 
65 


使 用 unichr() 函 数 可 将 unicode 号 码 转 换 回 unicode 字 符 ， 如 : 


>>> unichr(65) 
U'A!' 


3.2.4. 原始 字符 串 


有 时 我 们 并 不 想 让 转 义 字符 生效 ， 我 们 只 想 显示 字符 串 原 来 的 意思 ， 这 就 要 用 r 和 民 来 定义 原 
始 字符 串 。 如 : 


print r'\t\r' 


实际 输出 为 At 。 


3.3. List 列 表 


。 列表 是 序列 对 象 ， 可 包含 任意 的 Python 数据 信息 ， 如 字符 串 、 数 字 、 列 表 、 元 组 等 。 列 
表 的 数据 是 可 变 的 ， 我 们 可 通过 对 象 方法 对 列表 中 的 数据 进行 增加 、 修 改 、 删 除 等 操 
作 。 可 以 通过 list(seq) 辑 数 把 一 个 序列 类 型 转换 成 一 个 列表 。 列 表 的 几 个 例子 : 


o 1ist = [ "a",，"b","c" ] ， 这 是 字符 列表 。 

o 1ist =[1 2 3, 4] ， 这 是 数字 列表 。 

o list = [ [1,2,3,4]，["a","b","c"] ] ， 这 是 列表 的 列表 。 
o 1list = [ (1,2,3,4)，("a","b","c") ] ， 这 是 元 组 列表 。 


o list((1,2)) 把 一 个 元 组 转换 成 一 个 列表 [1,2]，list('test') 可 把 字符 串 转 换 成 [t','e','s',' 列 
表 。 


e 访问 列表 可 通过 索引 来 引用 ， 如 : list[0] 将 引用 列表 的 第 一 个 值 。list[0: 们 返回 第 一 和 第 二 
个 元 素 。 


e 用 range() 和 xrange() 函 数 可 自动 生成 列表 ， 具 体 用 法 请 参考 “python 参考 篇 ”的 内 容 。 


。 可 通过 列表 综合 来 创建 列表 ， 该 功能 是 在 python2.0 版 本 中 新 增加 的 。 如 果 想 对 列表 中 的 
每 个 项 进行 运算 并 把 结果 存储 在 一 个 新 列表 中 ， 可 者 想 创建 一 个 仅 包含 特定 满足 某 种 条 
件 的 项 ， 采 用 该 方法 是 很 适合 的 。 如 : [x*x for x in range(1,10)] 会 得 到 一 个 X 的 平方 的 新 
列表 ; 我 们 还 可 添加 if 条 件 控制 输出 ， 如 : [x*x for x in range(1,10) if x%2==0] ; 还 可 在 列 
表 中 使 用 多 个 for 语 句 ， 如 : 


>>> [x+ty for x in "123" for y in "abc"] 
[olav, pl ey 2 2b Cu Lo au elo “Cl 


X,y 值 可 取 列 表 或 元 组 等 ， 以 构成 更 复杂 的 结构 。 
e。 “+” 号 可 连接 两 个 列表 。 
。 访问 列表 的 列表 ( 诅 套 列表 ) 可 用 list[1][0]， 这 将 访问 眶 套 中 的 第 二 个 列表 的 第 一 个 元 素 。 
。 可 用 数字 与 列表 相 乘 以 复制 内 容 ， 如 : list*2 会 得 到 一 个 [1,2,3,4,1,2,3,4] 的 列表 。 注 意 ， 
不 能 用 列表 与 列表 相 乘 。 


e 由 于 列表 是 可 变 的 ， 我 们 可 用 赋值 语 多 进行 操作 ， 如 : list[0] =2。 
e@ 列表 对 象 方 法 可 对 列表 进行 操作 ， 如 列表 
list 列 表 进 行 排序 。 


内 容 的 添加 ， 删 除 ， 排 序 等 。 如 list.sort() 可 对 


**Table 3.3\， 列表 对 象 支持 的 方法 ** 


一 一 一 一 一 一 一 一 一 一 一 / 
1 


方法 | 描述 | 

er al| 

append(x) | 在 列表 尾部 追加 单个 对 象 X。 使 用 多 个 参数 会 引起 异常 。 | 

count(x) | 返回 对 象 X 在 列表 中 出 现 的 次 数 。 | 

extend(L) | 将 列表 L 中 的 表 项 添加 到 列表 中 。 返 回 None 。 

Index(X) | 返回 列表 中 匹配 对 象 X 的 第 一 个 列表 项 的 索引 。 无 匹配 元 素 时 产生 异 常 。 | 

insert(i,x) | 在 索引 为 i 的 元 素 前 插入 对 象 X。 如 1ist .insert(0,x) 在 第 一 项 前 插入 对 象 。 返 回 None。 
pop(x) | 贡 除 列表 中 索引 为 x 的 表 项 ， 并 返回 该 表 项 的 值 。 若 未 指定 索引 ，pop 返 回 列表 最 后 一 项 。 | 
remove(X) | 删除 列表 中 匹配 对 象 X 的 第 一 个 元 素 。 匹 配 元 素 时 产生 异常 。 返 回 None。 | 

reverse() | 凑 倒 列表 元 素 的 顺序 。 | 


sort() | 对 列表 排序 ， 返 回 none。bisect 模 块 可 用 于 排序 列表 项 的 添加 和 删除 。 | 


3.4. Tuple 元 组 


Tuple( 元 组 ) 和 List( 列 表 ) 很 相似 ， 但 元 组 是 不 可 变 的 。 不 能 对 元 组 中 的 元 素 进 行 添加 ， 修 改 和 
删除 操作 。 如 果 需 修改 元 组 内 容 只 有 重建 元 组 。 元 组 用 小 括号 来 表示 。 如 tuple=(1,2,3)。 


tuple=(1,)， 这 是 单个 元 素 的 元 组 表示 ， 需 加 额外 的 去 号 。 


tuple=1，2，3，4， 这 也 可 以 是 一 个 元 组 ， 在 不 使 用 圆 括号 而 不 会 导致 混淆 时 ，Python 
允许 不 使 用 圆 括 号 的 元 组 。 


和 列表 一 样 ， 可 对 元 组 进行 索引 、 分 片 、 连 接 和 重复 。 也 可 用 len() 求 元 组 长 度 。 
元 组 的 索引 用 tuple[i] 的 形式 ， 而 不 是 tuple()。 


和 列表 类 似 ， 使 用 tuple(seq) 可 把 其 它 序列 类 型 转换 成 元 组 。 


3.5. 序列 对 象 


上 面 介 绍 的 字 
示 字 化 索引 和 


符 串 、 列 表 和 元 组 的 对 象 类 型 均 属 于 称 为 序列 的 Python 对 象 。 它 是 一 种 可 使 用 
行 访问 其 中 元 素 的 对 象 。 


可 用 算术 运算 符 联 接 或 重复 序列 。 
比较 运算 符 (< ，<=，>，》>=，!|=， ==) 也 可 用 于 序列 


可 通过 下 标 (test[1])， 切 片 (test[1:3]) 和 解 包 来 访问 序列 的 某 部 份 。 解 包 示 例如 下 : 


>>>s=1, 2,3 
>>>x, y, Z=S 
>>>print x,y,z 
2 


in 运算 符 可 判断 当 有 对 象 是 否 序 列 对 象 成 员 ， 如 : 


>>>list = [1,2,3] 
>>>1 in list 

下 

>>>4 in list 


。 也 可 通过 循环 运算 符 对 序列 对 象 进行 迭代 操作 。 如 : 


for day in days: 
print day 


有 关 序 列 的 处 理 函 数 请 参考 "python 参考 篇 "相关 内 容 ， 这 里 就 不 详细 讲 了 。 


3.6. Dictionary 字 典 


字典 是 一 个 用 大 括号 括 起 来 的 键 值 对 ， 字 典 元 素 分 为 两 部 份 ， 键 (key) 和 值 。 字 典 是 python 中 
唯一 内 置 映射 数据 类 型 。 通 过 指定 的 键 从 字典 访问 值 。 如 : 


monthdays = { "Jan":31, "Feb":28, "Mar":31, "Apr":30, "May":31, "Jun":30, "Jul":31, "Aug" 
ss 


。 字典 可 褒 套 ， 可 以 在 一 个 字典 里 包含 另 一 个 字典 。 如 test={"test":{"mytest":10}} 





。 可 用 键 访问 字典 ， 如 monthdays["Jan"]， 可 访问 值 31。 如 果 没 有 找到 指定 的 键 ， 则 解释 器 
会 引起 异常 。 


。 字典 是 可 修改 ， 如 monthdays["Jan"]=30， 可 把 Jan 的 值 由 31 改 为 30。 如 
monthdays["test"]=30 可 添加 一 个 新 键 值 对 。 


。 del monthdays["test"] 可 删除 字典 条 目 。 
。 字典 不 属 序列 对 象 ， 所 以 不 能 进行 连接 和 相 乘 操作 。 字 典 是 没有 顺序 的 。 
。 字典 提供 keys 和 values 方 法 ， 用 来 返回 字典 中 定义 的 所 有 键 和 值 。 


。 和 列表 一 样 ， 字 典 也 提供 了 对 象 方法 来 对 字典 进行 操作 。 


**Table 3.4\. 字典 方法 ** 


方法 | 描述 | 


| | 
ps ee | 如 果 字 典 中 有 键 X， 则 返回 真 。 | 
keys() | 返回 字典 中 键 的 列表 | 
Values() | 返回 字典 中 值 的 列表 。 | 
items() | 返回 tuples 的 列表 。 每 个 tuple 由 字典 的 键 和 相应 值 组 成 。 | 
clear() | 删除 字典 的 所 有 条 目 。 | 
copy() | 返回 字典 高 层 结构 的 一 个 拷贝 ， 但 不 复制 谋 入 结构 ， 而 只 复制 对 那些 结构 的 引用 。 | 
update(x) | 用 字典 x 中 的 键 值 对 更 新 字典 内 容 。 | 
get(x[,y]) | 返回 键 X， 若 未 找到 该 键 返回 none， 若 提供 y， 则 未 找到 X 时 返回 y。 | 


i i i nd ii i i i i 1 
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3.7. File 文 件 
可 用 内 置 的 open() 驾 数 对 文件 进行 操作 。 如 : 


input = open("test.txt") 

for line in input.readlines(): 
print line 

input.close() 


3.8. 理解 引用 


。 Python 把 一 块 数据 存储 在 对 象 中 ， 变 量 是 对 象 的 唯一 引用 ; 它们 是 计算 机 内 存 中 特殊 地 
点 的 名 字 。 所 有 对 象 都 具有 唯一 的 身份 号 、 类 型 和 值 。 对 象 的 类 型 不 会 改变 ， 对 于 可 变 
类 型 而 言 ， 它 的 值 是 可 变 的 。id(obj) 函 数 可 用 于 检索 对 象 的 身份 ， 也 就 是 内 存 中 的 对 象 的 
地 址 。 


。 每 个 对 象 都 包含 引用 计数 器 ， 它 记录 当前 有 多 少 个 变量 正在 引用 该 对 象 。 当 给 对 象 指定 
一 个 变量 或 使 对 象 成 为 列表 或 其 它 包容 器 的 成 员 时 ， 引 用 计数 就 增加 ; 当 从 包容 器 中 撤 
消 、 重 新 分 配 或 删除 对 象 时 ， 引 用 计数 减少 。 当 引用 计数 达到 0 值 时 ( 即 没有 任何 变量 引用 
，python 的 回收 机 制 会 自动 回收 它 使 用 的 内 存 。 注 意 ，del 可 用 来 删除 变量 ， 但 

不 能 删除 对 象 。 


sys.gettrefcount(obj) 况 数 可 返回 给 定 对 象 的 引用 计数 。 


3.9. copy and deepcopy 
通过 给 列表 分 配 一 个 变量 能 创建 对 列表 的 引用 ， 如 果 要 创建 列表 的 副本 就 要 理解 浅 副本 和 深 
副本 的 概念 。 


e 列表 或 其 他 包容 器 对 象 的 浅 副 本 (Shallow) 能 够 生成 对 象 本 身 的 副本 ， 但 也 会 创建 对 由 列 
表 包 含 的 对 象 的 引用 。 可 用 分 片 (object[:]) 和 copy 模 块 的 copy(obj) 函 数 创 建 。 


。 列表 或 其 他 对 象 包容 器 对 象 的 深 副 本 能 够 生成 对 象 本 身 的 副本 ， 并 递归 地 生成 所 有 子 对 
象 的 副本 。 可 用 copy 模 块 的 deepcopy(obj) 函 数 创建 。 


比较 两 种 副本 ， 一 般 情 况 下 表现 一 样 ， 但 当 列 表 内 包含 另 一 个 列表 的 情况 下 ， 父 列表 的 浅 副 


本 将 包含 对 子 列表 引用 ， 而 不 是 独立 副本 。 


副本 中 都 可 见 ， 如 : 


>>> a=[1,2,3,[4,5]] 
>>> b=a[:] 

>>> b 

[1, 2, 3, [4, 5]] 
>>> a[3] .remove(4) 
>>> a 

[1, 2, 3, [5]] 

>>> b 
[1，2，3，[5]] 


如 果 是 深 副 本 ， 就 不 会 出 现 这 种 情况 。 如 : 


>>> a=[1,2,3,[4,5]] 
>>> b=copy .deepcopy(a) 
>>> b 

[1, 2, 3, [4, 5]] 

>>> a[3] .remove(4) 


， 3, [5]] 


3.10. 标识 数据 类 型 


可 通过 type(obj) 函 数 标识 数据 类 型 ， 如 : 


>>> type(a) 
<type 'list'> 
>>> type(copy) 
<type 'module'> 
>>> type(1) 
<type 'int'> 


types 模 块 包含 Python 的 内 置 数据 类 型 的 类 


>>> import types 
>>> types.ListType 
<type 'list'> 

>>> types.IntType 
<type 'int'> 


3.11. 数组 对 象 


其 结果 是 ， 当 更 改 内 部 列表 时 ， 从 父 列表 的 两 个 


型 对 象 。 如 : 


数组 对 象 与 列表 类 似 ， 但 数组 只 包含 某 些 类 型 的 简单 数据 。 所 以 当 数 据 较 简 单 ， 且 要 求 性 能 


Table 3.5. 数组 类 型 代码 


代码 等 价 的 C 类 型 以 字 节 为 单位 的 最 小 尺寸 
C char 1 
b(B) byte(unsigned byte) | 
h(H) short(unsigned short) 2 
i(|) int(unsigned int) 2 
I(L) long(unsigned long) 4 
f float 4 
d double 8 
数组 创建 方法 如 下 : 


>>> Import array 

>>> z=array.array("b") 
>>> z.append(1) 

>>> z 

array('b', [1]) 


数组 的 itemsize 和 typecode 成 员 可 分 别 检索 数组 项 的 大 小 和 数组 对 象 的 类 型 代码 ， 如 : 


>>> z.itemsize 
1 

>>> z.typecode 
党 


3.1. 数组 类 型 与 其 它 数据 类 型 的 转换 
e。 tolist() 方 法 可 把 数组 转换 为 列表 ， 如 : 


>>> Z.tolist() 
加 2 


fromlist(list) 方 法 可 把 列表 项 附加 到 数组 的 末尾 ， 如 : 


>>> z.fromlist([10,11]) 
>>> Zz 
aa (lo 1 2030 


如 添加 的 列表 类 型 与 数组 类 型 不 同 ， 则 fromlist(list) 不 会 把 任何 项 添加 到 数组 对 象 
中 。 


。 tostring() 方 法 ， 可 以 把 数组 转换 为 字 节 的 序列 ， 如 : 


>>> z.tostring() 
'\x01\x02\x03\n\xOb! 


fromstring(list) 方 法 刚好 与 tostring() 相 反 ， 它 获取 一 个 字 节 事 ， 并 把 它们 转换 为 数组 的 
值 。 如 : 


>>> z.fromstring("\x0b") 
>>> z 


armrmavyG Do 2 9 L100 1 |) 


。 tofile(file) 方 法 可 把 数组 转换 为 字 节 的 序列 ， 并 把 它们 写 入 文件 ， 如 : 


>>> f=open("aa", "wb") 
>>> z.tofile(f) 
>>> f.close() 


fromfile(file,count) 方 法 用 于 从 文件 对 象 中 读 取 特 定数 目的 项 ， 并 把 它们 附加 到 数组 中 ， 
如 : 


>>> z.fromfile(open("aa", "rb"),2) 
>>>°2 
a av (lo ee 1203 lO li 2 


当 取 数 项 大 于 文件 数据 项 时 ，formfile 会 产生 EOFError 异 常 。 


。 数组 对 象 支持 列表 中 的 很 多 相同 函数 和 方法 : len，append 等 。 访 问 成 员 的 方法 也 可 列表 
一 样 ， 可 用 下 标 和 分 片 。 


Chapter 4. 控制 语句 


流程 控制 是 程序 设计 中 一 个 重要 的 内 容 ，Python 支 持 三 种 不 同 的 控制 结构 : if，for 和 while 。 
e if 语 句 判 断 表 达 式 是 否 为 契 ， 如 果 为 夏 则 执行 指定 语句 。if 语 名 的 格式 如 下 : 


if EXPRESSION1: 


STATEMENT1 
elif EXPRESSION2: 

STATEMENT2 
else: 

STATEMENT3 


如 果 第 一 个 表达 式 为 夏 ， 则 执行 statement1， 和 否则 进行 进一步 的 测试 ， 如 果 第 二 个 表达 
式 为 路 则 执行 statement2， 否 则 执行 statement3 。 


#!/Uusr/bin/env python 


mytest = raw_input("please input a number:") 
mytest = int(mytest) 
if mytest == 10: 

print "you input number is ten." 
elif mytest == 20: 

print "you input number is twenty." 
else> 

print "another number." 


脚本 的 执行 效果 : 


tO03:~# python test.py 
please input a number:10 
you input number is ten. 
to03:~# python test.py 
please input a number:20 
you input number is twenty. 
tO03:~# python test.py 
please input a number:777 
another number. 


。 While 进行 循环 控制 ， 它 对 表达 式 进 行 测试 ， 如 果 为 趴 ， 则 循环 执行 循环 体 。 格 式 如 下 : 


while EXPRESSION : 
STATEMENT 
else : 
STATEMENT 


如 果 测 试 为 假 ， 则 会 执行 else 块 。 如 果 循 环 被 中 断 (break)， 则 else 块 不 会 执行 。 


示例 : 


>>> a = 0 
>>> while a &gt; 5: 
a -a tl 
print a 
ellse 
print "a's Value is five" 


DOPPODNDP.- 


's Value is five 


。 for 循 环 可 遍历 对 象 ， 并 可 进行 选 代 操 作 。 语 名 格式 如 下 : 


for TARGET In OBJECTS : 
STATEMENT 

else : 
STATEMENT 


和 while 一 样 ， 在 循环 正常 退出 时 ， 会 执行 else 块 。 


示例 : 


>>> mylist = "for statement" 

>>> for word in mylist: 

ee print word 

Se 
print "End list" 


nd list 


在 循环 的 过 程 中 ， 我 们 可 使 用 循环 控制 语句 来 控制 循环 的 执行 。 有 三 个 控制 语句 ， 分 别 
是 break、continue 和 pass。 它 们 的 作用 分 别 是 : 


o break 语 句 会 立即 退出 当前 循环 ， 不 会 执行 else 块 的 内 容 。 


示例 : 


>>> mylist = ["zope", "python","perl", "Linux"] 
>>> for technic in mylist: 
If technic == "perl": 
break 
else: 
print technic 
zope 
python 


o continue 语 名 会 忽略 后 面 的 语句 ， 强 制 进入 下 一 次 循环 。 


示例 : 


>>> mylist = ["zope",，"python"，"per1"，"Linux"] 
>>> for technic in mylist: 
If technic == "perl": 
continue 
else: 
print technic 


zope 
python 
Linux 


o pass 不 做 任何 事情 。 


>>> for technic in mylist: 
If technic == "perl": 
pass 
else: 
print technic 


zope 
python 
Linux 


Chapter 5. 函数 


函数 是 一 个 能 完成 特定 功能 的 代码 块 ， 可 在 程序 中 重复 使 用 ， 减 少 程序 的 代码 量 和 提高 程序 
的 执行 效率 。 在 python 中 函数 定义 语法 如 下 : 


def function_name(arg1,arg2[,...]): 
Statement 
[return value] 


返回 值 不 是 必须 的 ， 如 果 没 有 return 语 如， 则 Python 默认 返回 值 None 。 
函数 名 的 命名 规则 : 


。 函数 名 必须 以 下 划 线 或 字母 开头 ， 可 以 包含 任意 字母 、 数 字 或 下 划 线 的 组 合 。 不 能 使 用 
任何 的 标点 符号 : 


e 函数 名 是 区 分 大 小 写 的 。 
e 函数 名 不 能 是 保留 字 。 


Python 使 用 名 称 空间 的 概念 存储 对 象 ， 这 个 名 称 空 间 就 是 对 象 作 用 的 区 域 ， 不 同 对 象 存在 于 
不 同 的 作用 域 。 下 面 是 不 同 对 象 的 作用 域 规则 : 


e 每 个 模块 都 有 自已 的 全 局 作用 域 。 
。 函数 定义 的 对 象 属 局 部 作用 域 ， 只 在 函数 内 有 效 ， 不 会 影响 全 局 作用 域 中 的 对 象 。 


。 赋值 对 象 属 局 部 作用 域 ， 除 非 使 用 global 关 键 字 进行 声明 。 
LGB 规 则 是 Python 查找 名 字 的 规则 ， 下 面 是 LGB 规 则 : 


e 大 多 数 名 字 引 用 在 三 个 作用 域 中 查找 : 先 局 部 (Local)， 次 之 全 局 (Global)， 再 次 之 内 置 
(Build-in)。 


3 三 2 

>>> b=2 

>>> def test(b): 

5 test=a*b 
ee return test 
>>>print test(10) 
20 


b 在 局 部 作用 域 中 找到 ,a 在 全 局 作用 域 中 找到 。 
。 如 想 在 局 部 作用 域 中 改变 全 局 作用 域 的 对 象 ， 必 须 使 用 global 关 键 字 。 


# 没 用 global 时 的 情况 

>>> name="Jims" 

>>> def set(): 

: name="ringkee" 

>>> Set() 

>>> print name 

Jims 

# 使 用 global 后 的 情况 

>>> name="Jims" 

>>> def set1(): 
global name 
name="ringkee" 

>>> set1() 

>>> print name 

ringkee 


。 'global' 声 明 把 赋值 的 名 字 映 射 到 一 个 包含 它 的 模块 的 作用 域 中 。 
函数 的 参数 是 函数 与 外 部 沟通 的 桥梁 ， 它 可 接收 外 部 传递 过 来 的 值 。 参 数 传递 的 规则 如 下 : 
。 在 一 个 函数 中 对 参数 名 赋值 不 影响 调用 者 。 


>>> a=1 
>>> def test(a): 
a=a+1 
print a 
>>> test(a) 
2 
>>> a 
J # 8 值 不 变 


。 在 一 个 函数 中 改变 一 个 可 变 的 对 象 参数 会 影响 调用 者 。 


>>> a=1 

>>> b=[1, 2] 

>>> def test(a,b): 

a=5 
b[0]=4 
print a,b 


>>> test(a,b) 
5 [4, 2] 

>>> a 

lb 

>>> b 


[4，2] # b 值 已 被 更 改 


参数 是 对 象 指针 ， 无 需 定义 传递 的 对 象 类 型 。 如 : 
>>> def test(a,b): 
外 return ar+b 


>>> test(1,2)  ”# 数 值 型 
3 


>>> test("a","b") ”# 字 符 型 
rabD 1 

>>> test([12],[11])  # 列 表 
[12,11] 


函数 中 的 参数 接收 传递 的 值 ， 参 数 可 分 默认 参数 ， 如 : 
def function(ARG=VALUE ) 
元 组 (Tuples) 参数 : 
def function(*ARG) 
字典 (dictionary) 参数 : 
def function(**ARG) 
一 些 函 数 规则 : 
。 默认 值 必 须 在 非 默 认 参 数 之 后 ; 
。 在 单个 函数 定义 中 ， 只 能 使 用 一 个 tuple 参 数 (*ARG) 和 一 个 字典 参数 (*ARG) 。 


e tuple 参 数 必 须 在 连接 参数 和 默认 参数 之 后 。 


。 字典 参数 必须 在 最 后 定义 。 


5.1. 第 用 函数 


e abs(x) 


abs() 返 回 一 个 数字 的 绝对 值 。 如 果 给 出 复数 ， 返 回 值 就 是 该 复数 的 模 。 


>>>print abs(-100) 
100 

>>>print abs(1+2] ) 
2.2360679775 


e callable(object) 


callable() 函 数 用 于 测试 对 象 是 否 可 调用 ， 如 果 可 以 则 返回 1( 真 ) ; 否则 返回 0( 假 )。 可 调用 
对 象 包括 函数 、 方 法 、 代 码 对 象 、 类 和 已 经 定义 了 “调用 "方法 的 类 实例 。 


pe A LL 123 LL 

>>> print callable(a) 

0 

>>> print callable(chr) 
1 


。 cmp(X,y) 


cmp() 函 数 比 较 Xx 和 y 两 个 对 象 ， 并 根据 比较 结果 返回 一 个 整数 ， 如 果 Xx<y， 则 返回 -1 ; 如 
果 X>y， 则 返回 1, 如 果 X==y 则 返回 0。 


>>>a=1 

>>>b=2 

>>>c=2 

>>> print cmp(a,b) 
sl 

>>> print cmp(b,a) 
1 


>>> print cmp(b,c) 
0 


。 divmod(x,y) 


divmod(x,y) 元 数 完成 除法 运算 ， 返 回 商 和 余数 。 


>>> divmod(10,3) 
(3, 1) 
>>> divmod(9,3) 
(3, 9) 


。 isinstance(object,class-or-type-or-tuple) -> bool 


测试 对 象 类 型 


>>> a="'isinstance test' 
>>> b=1234 

>>> isinstance(a, str) 
True 

>>> isinstance(a,int) 
False 

>>> isinstance(b, str) 
False 

>>> isinstance(b,int) 
True 


。 len(object) -> integer 


len() 函 数 返 回 字符 串 和 序列 的 长 度 。 


>>> len("aa" 
2 


>>> len([1,2]) 
2 


。 pow(xX,y[,z]) 


pow() 有 函数 返回 以 Xx 为 底 ，y 为 指数 的 圭 。 如 果 给 出 z 值 ， 该 函数 就 计算 Xx 的 y 次 需 值 被 z 取 模 
的 值 。 

>>> print pow(2,4) 

16 

>>> print pow(2,4,2) 

0 


>>> print pow(2.4,3) 
13.824 


。 range([lower,]stopl,step]) 


range() 有 函数 可 按 参数 生成 连续 的 有 序 整 数列 表 。 


>>> range(10) 

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
>>> range(1,10) 

[1, 2, 3, 4, 5, 6, 7, 8, 9] 
>>> range(1,10,2) 

[1, 3, 5, 7, 9] 


e round(x[,n]) 
round() 却 数 返回 浮 点 数 X 的 四 合 五 入 值 ， 如 给 出 n 值 ， 则 代表 合 入 到 小 数 点 后 的 位 数 。 
>>> round(3.333) 


>>> round(3) 
0 


>>> round(5.9) 
0 


。 type(obj) 


type() 函 数 可 返回 对 象 的 数据 类 型 。 


>>> type(a) 
<type 'list'> 
>>> type(copy ) 
<type 'module'> 
>>> type(1) 
<type 'int'> 


。 xrange([lower,]stopl,step]) 


xrange() 冲 数 与 range() 类 似 ， 但 xrnage() 并 不 创建 列表 ， 而 是 返回 一 个 xrange 对 象 ， 它 的 
行为 与 列表 相似 ， 但 是 只 在 需要 时 才 计 算 列表 值 ， 当 列表 很 大 时 ， 这 个 特性 能 为 我 们 节 


>>> a=xrange(10) 
>>> print a[0] 


>>> print a[1] 


>>> print a[2] 


e chr(i) 


chr() 函 数 返 回 ASCII 码 对 应 的 字符 串 。 


>>> print chr(65) 

A 

>>> print chr(66) 

B 

>>> print chr(65)+chr(66) 
AB 


e。 complex(reall,imaginary]) 


complex() 浆 数 可 把 字符 串 或 数字 转换 为 复数 。 


>>> complex("2+1j") 
(2+1j) 

>>> complex("2") 
(2+0j) 

>>> complex(2,1) 
(2+1j) 

>>> complex(2L,1) 
(2+1j) 


e float(x) 


float() 函 数 把 一 个 数字 或 字符 串 转换 成 浮 点 数 。 


>>> float("12") 
12.0 

>>> float(12L) 
12.0 

>>> float(12.2) 

12 .199999999999999 


e hex(X) 
hex() 驾 数 可 把 整数 转换 成 十 六 进 制 数 。 


>>> hex(16) 
"0X10 
>>> hex(123) 
"9Xx7b 


。 long(x[,base]) 
long() 函 数 把 数字 和 字符 串 转 换 成 长 整数 ，base 为 可 选 的 基数 。 


>>> long("123") 
123L 

>>> long(11) 
11L 


e list(x) 


list() 元 数 可 将 序列 对 象 转换 成 列表 。 如 : 


>>> list("hello world") 


hs VE il ll Oe 1 3 'W', OL re He Ecle | 
>>> list((1,2,3,4)) 
ey 2 5 4] 


eint(x[,base]) 
int() 子 数 把 数字 和 字符 串 转换 成 一 个 整数 ，base 为 可 选 的 基数 。 
>>> int(3.3) 
>>> int(3L) 


>>> int("13") 


>>> int("14",15) 


e min(x[,y,z...]) 


min() 函 数 返 回 给 定 参 数 的 最 小 值 ， 参 数 可 以 为 序列 。 


>>> min(1,2,3,4) 

1 

>>> min((1,2,3),(2,3,4)) 
(1, 2, 3) 


e max(x[,y,z...]) 


max() 有 函数 返回 给 定 参数 的 最 大 值 ， 参 数 可 以 为 序列 。 


>>> max(1,2,3,4) 

4 

>>> max((1,2,3),(2,3,4)) 
(2, 3, 4) 


e oct(x) 


oct() 函 数 可 把 给 出 的 整数 转换 成 八进制 数 。 


>>> oct(8) 
"010 

>>> oct(123) 
'0173" 


e ord(X) 


Ord() 况 数 返回 一 个 字符 串 参 数 的 ASCIl 码 或 Unicode 值 。 


>>> ord("a") 
97 

>>> ord(u"a") 
97 


e Str(obj) 


str() 函 数 把 对 象 转 换 成 可 打印 字符 串 。 


>>> str("4") 
>>> Str(4) 
人 

>>> Str(3+2]) 
"(3+2j)" 


e tuple(X) 


tuple() 函 数 把 序列 对 象 转 换 成 tuple 。 


>>> tuple("hello world") 


(uh 'e', le I OU 1 和 'wW', vo Wp le 'd') 


>>> tuple([1,2,3,4]) 
(1, 2, 3, 4) 


5.3. 序列 处 理 函 数 


。 常用 函数 中 的 len()、max() 和 min() 同 样 可 用 于 序列 。 
e filter(function ,list) 


调用 filter() 时 ， 它 会 把 一 个 函数 应 用 于 序列 中 的 每 个 项 ， 并 返回 该 函数 返回 站 值 时 的 所 有 
项 ， 从 而 过 滤 掉 返回 假 值 的 所 有 项 。 


>>> def nobad(s): 
return s.find("bad") == -1 


>>> < 二 ["bad"， "good", "bade", "we"] 
>>> filter(nobad, s) 
['good', 'we'] 


这 个 例子 通过 把 nobad() 函 数 应 用 于 s 序 列 中 所 有 项 ， 过 滤 掉 所 有 包含 "bad" 的 项 。 


e。 map(function ,listl,list]) 


map() 函 数 把 一 个 函数 应 用 于 序列 中 所 有 项 ， 并 返回 一 个 列表 。 


>>> import String 

>>> s=["python", "zope", "linux"] 
>>> map(string.capitalize,s) 
['Python', 'Zope', 'Linux'] 


map() 还 可 同时 应 用 于 多 个 列表 。 如 : 


>>> import operator 

>>> s=[1,2,3]; t=[3,2,1] 

>>> map(operator .mul,s,t) # Ss[i]*t[j] 
[3, 4, 3] 


如 果 传 递 一 个 None 值 ， 而 不 是 一 个 函数 ， 则 map() 会 把 每 个 序列 中 的 相应 元 素 合 并 起 
来 ， 并 返回 该 元 组 。 如 : 


>>> a=[1,2];b=[3, 4];c=[5, 6] 
>>> map (None, a,b,c) 
EC SD 22406) 


。 reduce(function,seq[,init]) 


reduce() 函 数 获得 序列 中 前 两 个 项 ， 并 把 它 传递 给 提供 的 函数 ， 获 得 结果 后 再 取 序 列 中 的 
下 一 项 ， 连 同 结果 再 传递 给 函数 ， 以 此 类 推 ， 直 到 处 理 完 所 有 项 为 止 。 


>>> Import operator 
>>> reduce(operator.mul,[2,3,4,5]) # ((2*3)*4)*5 


120 
>>> reduce(operator.mul, [2,3,4,5],1) # (((1*2)*3)*4)*5 
120 
>>> reduce(operator.mul,[2,3,4,5],2) # (((2*2)*3)*4)*5 
240 


。 Zip(seql,seq,...]) 


zip() 函 数 可 把 两 个 或 多 个 序列 中 的 相应 项 合并 在 一 起 ， 并 以 元 组 的 格式 返回 它们 ， 在 处 
理 完 最 短 序列 中 的 所 有 项 后 就 停止 。 


>>> zip([1,2,3],[4,5],[7,8,9]) 
(I 4 (0 0) 


如 果 参 数 是 一 个 序列 ， 则 zip() 会 以 一 元 组 的 格式 返回 每 个 项 ， 如 : 


>>> zip((1,2,3,4,5)) 


(lr (270). (局 (六 (5, )] 
>>> zip([1,2,3,4,5]) 


(ly 270 (3 (470 (5, )] 


Chapter 6. 模块 


模块 可 把 一 个 复杂 的 程序 按 功 能 分 开 ， 分 别 存放 到 不 同 和 ， 使 程序 更 容易 维护 和 管理 。 
在 Python 中 的 模块 是 一 个 以 .py i 文件 。 可 通过 import 命 令 输入 ， 如 : 


import sys 


import 会 完成 以 下 三 个 操作 : 
创建 新 的 名 称 空间 (namespace) ， 该 名 称 空间 中 拥有 输入 模块 中 定义 的 所 有 对 象 ; 
e 执行 模块 中 的 代码 ; 
创建 该 名 称 空间 的 变量 名 。 


import 语 名 可 同时 输入 多 个 模块 ， 如 : 
import os,sys,system 
也 可 写成 : 


Import os 
import sys 
import system 


有 些 模块 的 名 称 很 长 ， 我 们 可 在 输入 时 给 它 起 个 简单 的 别名 ， 这 样 在 使 用 模块 中 的 对 象 就 方 
便 很 多 ， 如 


import ftplib as ftp 


有 时 我 们 可 能 只 想 使 用 模块 中 某 个 对 象 ， 又 不 想 把 整个 模块 输入 ， 则 可 以 用 from...import 语 名 
输入 特定 对 象 。 如 : 


from ftplib import FTP 


这 样 ， 我 们 就 可 直接 使 用 FTP()， 而 不 用 带 前 级 。 
如 果 装 载 模块 出 错 ， 会 引发 ImportError 异 常 。 我 们 可 捕获 该 异常 进行 相应 处 理 。 


Python 脚本 和 模块 都 是 一 个 以 .py 结束 的 文件 ， 那 程序 是 如 何 判断 一 个 .py 文件 是 作为 脚本 还 是 
模块 呢 ? 关键 是 一 个 名 为 “name 的 变量 ， 如 果 它 的 值 是 main ， 则 不 能 作为 模块 ， 只 
能 作为 脚本 直接 运行 。 所 以 在 很 多 脚本 的 最 后 都 有 一 段 类 似 下 面 的 语句 ， 限 制 只 能 以 脚本 方 
式 运行 ， 不 作为 模块 : 


if name = MAL: 
main() 





几 个 功能 相近 的 模块 我 们 可 组 成 一 个 Python 包 ， 存 放 到 一 个 目录 结构 中 ， 通 过 输入 包 的 路 径 
来 调用 对 象 。 要 定义 包 ， 就 要 建 一 个 与 包 名 同名 的 目录 ， 接 着 在 该 目录 下 创建 init .py 文 
件 。 该 文件 是 包 的 初始 化 文件 ， 可 以 为 室 ， 也 可 定义 一 个 代码 。 例 如 一 个 WebDesign 包 的 目 
录 如 下 : 


/WebDesign 
_ init_ .py 
design.py 
draw.py 


我 们 可 通过 以 下 语句 输入 design 模 块 : 


Import WebDesign.design 


6.1. String 模 块 


。 replace(string,old,new[,maxsplit) 


字符 串 的 替换 函数 ， 把 字符 串 中 的 old 替 换 成 new。 默 认 是 把 string 中 所 有 的 old 值 替换 成 
new 值 ， 如 果 给 出 maxsplit 值 ， 还 可 控制 蔡 换 的 个 数 ， 如 果 maxsplit 为 1， 则 只 替换 第 一 个 


old 值 。 


>>>a="11223344" 

>>>print string.replace(a,"1","one" 
oneone2223344 

>>>print string.replace(a,"1","one",1) 
one12223344 


e capitalize(string) 


该 函数 可 把 字符 串 的 首 个 字符 替换 成 大 字 。 


>>> import String 
>>> print string.capitalize("python") 
Python 


。 split(string,sep=None,maxsplit=-1) 


从 string 字 符 串 中 返回 一 个 列表 ， 以 sep 的 值 为 分 胃 


>>> import string 

>>> ip="192.168.3.3" 

>>> ip_list=string.split(ip,'.') 
>>> print ip_list 

['192"', 1168 ' ， Wes Bei 


。 join(string[,sep]) 


返回 用 sep 连 接 的 字 串 ， 默 认 的 Sep 是 空格 。 


>>> import string 
ep ty ol tee] 
>>> b = string.join(a,'-') 
>>> b 
"a-b-c' 
>>> a 
wal on 上 ea 


6.2. time 模 块 


内 置 模块 time 包 含 很 多 与 时 间 相 关 函 数 。 我 们 可 通过 它 获 


符 。 


得 当前 的 时 间 和 格式 化 时 间 输 出 。 


。 time()， 以 浮 点 形式 返回 自 Linux 新 世纪 以 来 经 过 的 秒 数 。 在 linux 中 ，00:00:00 UTC， 


January 1, 1970 是 新 纪元 的 开始 。 


>>> time,time() 

1150269086 .6630149 

>>> time.ctime(1150269086.6630149 ) 
>>> 'Wed Jun 14 15:11:26 2006 


。 ctime([sec])， 把 秒 数 转换 成 日 期 格式 ， 如 果 不 带 参数 ， 则 显示 当前 的 时 间 。 


>>> Import time 

>>> time.ctime() 

>>> 'Wed Jun 14 15:02:50 2006 
>>> time.ctime(1138068452427683) 
"Sat Dec 14 04:51:44 1901" 


。 sleep(secs)， 定 时 。 


>>> time.sleep(10) 
>>> #10 秒 后 才 会 出 现 >>> 提 示 符 


Chapter 7. 类 


类 是 面向 对 象 编程 的 一 个 重要 概念 。 通 过 类 的 创建 和 继承 ， 可 重用 代码 ， 减 少 代 码 复 杂 度 。 
Python 是 一 种 面向 对 象 的 脚本 语言 ， 用 class 语 名 可 创建 类 ， 语 法 规则 如 下 : 


class classnmae([class_ parent,...]): 


def method( ): 


一 个 例子 : 


#!/UusSr/bin/python 
#-*- encoding:utf-8 -*- 


class test: # 定 义 一 个 test 类 
desc = "这 是 一 个 测试 类 。" # 在 类 中 定义 一 个 属性 desc 
def _ init (self,name1): # 对 象 构造 函数 ， 初 始 化 类 


self.namel1 = name1 
def show(self,name2): # 在 类 中 定义 一 个 方法 Show( ) 
print "hello world" 
print 'name1i:',self.name1 
print 'name2:',name2 
instance = test(' 这 是 传递 给 name1 的 值 ')  ”# 生 成 test 类 的 实例 对 象 jnstance 
print instance.desc # 调 用 类 中 的 desc 属 性 


instance.show(' 这 是 传递 给 name2 的 值 ' ) # 调 用 类 中 的 show( ) 方 法 


把 该 脚本 命名 为 test.py， 并 用 chmod +x test.py 使 脚本 有 执行 的 权限 ， 运 行 该 脚本 结果 如 下 : 


debian:~/python# ./test.py 
这 是 一 个 测试 类 。 

hello world 

name1: 这 是 传递 给 name1 的 值 
name2: 这 是 传递 给 name2 的 值 


这 里 只 是 Python 语言 中 类 的 一 个 简单 介绍 。 详 细 介 绍 可 参考 网 站 上 自由 文档 栏目 中 的 Python 


Chapter 8. 开 第 处 理 


Python 的 异常 处 理 能 力 是 很 强大 的 ， 可 向 用 户 准 确 反 馈 出 错 信息 。 在 Python 中 ， 异 常 也 是 对 
象 ， 可 对 它 进行 操作 。 所 有 异常 都 是 基 类 Exception 的 成 员 。 和 异常 处 理 的 try 语 法 有 两 种 ， 一 种 


日 


元 ， 


try: 
block 
except [exception, [data...]]: 
block 
else: 
block 


该 种 异常 处 理 语 法 的 规则 是 : 


执行 try 下 的 语句 ， 如 果 引 发 异常 ， 则 执行 过 程 会 跳 到 第 一 个 except 语 多 。 


。 如 果 第 一 个 except 中 定义 的 异常 与 引发 的 异常 匹配 ， 则 执行 该 except 中 的 语句 。 


如 果 引 发 的 异常 不 匹配 第 一 个 except， 则 会 搜索 第 二 个 except， 人 允许 编写 的 except 数 量 没 
有 限制 。 


如 果 所 有 的 except 都 不 匹配 ， 则 异常 会 传递 到 下 一 个 调用 本 代码 的 最 高 层 try 代 码 中 。 
e。 如 果 没 有 发 生 异常 ， 则 执行 else 块 代码 。 


try 语 名 的 第 二 种 语法 是 : 


try: 
block 
finally: 

block 


该 语句 的 执行 规则 是 : 
。 执行 try 下 的 代码 。 
e 如 果 发 生 异 常 ， 在 该 异常 传递 到 下 一 级 try 时 ， 执 行 finally 中 的 代码 。 


e 如 果 没 有 发 生 异 常 ， 则 执行 finally 中 的 代码 。 


第 二 种 try 语 法 在 无 论 有 没有 发 生 蜡 常 都 要 执行 代码 的 情况 下 是 很 有 用 的 。 例 如 我 们 在 python 
中 打开 一 个 文件 进行 读 写 操作 ， 我 在 操作 过 程 中 不 管 是 否 出 现 异 常 ， 最 终 我 都 是 要 把 该 文件 
关闭 的 。 


除了 系统 引发 的 异常 外 ， 我 们 还 可 用 raise 语 名 手工 引发 一 个 异常 : 


raise [exception[,datal] 


Chapter 9. 文件 处 理 


文件 是 我 们 储存 信息 的 地 方 ， 我 们 经 常 要 对 文件 进行 读 、 写 、 删 除 等 的 操作 ， 在 Python 中 ， 
我 们 可 用 Python 提 供 的 函数 和 方法 方便 地 操作 文件 。 


9.1. 文件 处 理 的 函数 和 方法 
使 用 Dpen() 函 数 可 打开 文件 ， 语 法 格式 如 下 : 


file_handler = open(filename,[,mode[,bufsize]] 


filename 是 你 要 操作 的 文件 名 ， 如 果 不 在 当前 路 径 ， 需 指出 具体 路 径 。mode 是 打开 文件 的 模 
式 ， 表 示 你 要 如 何 操作 文件 ，bufsize 表 示 是 否 使 用 缓存 。 


Table 9.1. mode 


~ 描述 
r ”以 读 方 式 打 开 文 件 ， 可 读 取 文件 信息 。 


Ww 以 写 方式 打开 文件 ， 可 向 文件 写 入 信息 。 

a 以 追加 方式 打开 文件 ， 文 件 指针 自动 移 到 文件 尾 。 

r+ 以 读 写 方式 打开 文件 ， 可 对 文件 进行 读 和 写 操作 。 

W+ ”消除 文件 内 容 ， 然 后 以 读 写 方式 打开 文件 。 

a+ ”以 读 写 方式 打开 文件 ， 并 把 文件 指针 移 到 文件 尾 。 

以 二 进 制 模式 打开 文件 ， 而 不 是 以 文本 模式 。 该 模式 只 对 Windows 或 Dos 有 效 ， 类 
Unix 的 文件 是 用 二 进 制 模式 进行 操作 的 。 


Table 9.2. bufsize 


bufsize 取 值 描述 


0 茶 用 缓冲 

1 行 缓冲 

>1 指定 缓冲 区 的 大 小 

<1 系统 默认 的 缓冲 区 大 小 


open() 郊 数 返 回 一 个 文件 对 象 ， 我 们 可 通过 read() 或 write() 元 数 对 文件 进行 读 写 操作 ， 下 面 是 
一 些 文件 对 象 方法 : 


Table 9.3. 文件 对 象 方法 


方法 
fclose() 


f.fileno() 
f.flush() 
f.isatty() 
f.read([count]) 
f.readline() 


freadlines() 
fseek(offset[,where]) 


f.tell() 
f.truncate([size]) 
f.write(string) 


f.writelines(list) 


9.2. 示例 


。 文件 的 打开 或 创建 


首 述 


关闭 文件 ， 记 住 用 open() 打 开 文件 后 一 定 要 记得 关闭 它 ， 否 则 会 
占用 系统 的 可 打开 文件 句柄 数 。 


获得 文件 描述 符 

刷新 输出 缓存 

如 果 文 件 是 一 个 交互 终端 ， 则 返回 True， 和 否则 返回 False。 
读 出 文件 ， 如 果 有 count， 则 读 出 count 个 字 节 。 

读 出 一 行 信息 。 

读 出 所 有 行 ， 也 就 是 读 出 整个 文件 的 信息 。 


把 文件 指针 移动 到 相对 于 where 的 offset 位 置 。offset 为 0 表示 文件 
开始 处 ， 这 是 默认 值 ; 1 表示 当前 位 置 ; 2 表示 文件 结尾 。 

获得 文件 指针 位 置 。 

截取 文件 ， 使 文件 的 大 小 为 size。 

把 String 字符 串 写 入 文件 。 


把 list 中 的 字符 囊 一 行 一 行 地 写 入 文件 。 


#!/usr/bin/env python 


#-*- encoding:UTF-8 


filehandler = open('test.txt','w') 


RR 


# 以 写 模 式 打 开 文件 ， 如 果 文 件 不 存在 则 创建 


filehandler .write('this is a file open/create test.\nthe second line.') 


filehandler .close() 


#!/usr/bin/env python 
#-*- encoding:UTF-8 -*- 


filehandler = open('test.txt','a') 


# 以 追加 模式 打开 文件 ， 如 果 文 件 不 存在 则 创建 


filehandler .write('\nappend the text in another line.\n') 


filehandler .close() 


。 读 取 文 件 


#!/usr/bin/env python 
#-*- encoding:UTF-8 -*- 


filehandler = open('test.txt','r') 


print 'read() function: 
print filehandler.read() 


print 'readline() function: 
filehandler ,seek(0) 
print filehandler.readline() 


print 'readlines() function:， 
filehandler .seek(0) 
print filehandler.readlines() 


print 'Jist all lines' 
filehandler .seek(0) 
textlist = filehandler.readlines() 
for line in textlist: 
print line 


print 'seek() function' 
filehandler .seek(32) 
print filehandler.read() 


print 'tell() function' 
filehandler .seek(0) 

print filehandler.readline() 
print filehandler.tell() 
print filehandler.readline() 
print filehandler.read() 


filehandler .close() 


二 | 


。 文件 系统 操作 


# 以 读 方式 打开 文件 ，rb 为 二 进 制 方 式 (如 图 片 或 可 执行 文件 等 ) 


# 读 取 整 个 文件 


# 返 回 文件 头 ， 读 取 一 行 


# 返 回 文件 头 ， 返 回 所 有 行 的 列表 


# 移 位 到 第 32 个 字符 ， 从 33 个 字符 开始 显示 余下 内 容 


# 移 位 到 文件 头 ， 从 头 开 始 显 示 2 位 字符 


# 显 示 第 一 行内 容 
# 显 示 当 前 位 置 

# 显 示 第 二 行内 容 
# 显 示 余 下 所 有 内 容 


# 关 闭 文件 句柄 


#!/usr/bin/env python 
#-*- encoding:utf-8 -*- 


import os,fnmatch,glob 


for fileName in os.listdir ( '/root' ): # 列 出 /root 目 录 内 容 ， 不 包括 .和 . ， 
print fileName 

os ,mkdir('py') # 在 当前 目录 下 创建 一 个 py 目录 ， 且 只 能 创建 一 层 

os .rmdir( 'py') # 在 当前 目录 下 删除 py 目录 ， 且 只 能 删除 一 层 

os.makedirs('py/aa') # 可 创建 多 层 目录 

os .removedirs('py/aa' ) # 可 删除 多 层 目 录 


print 'demonstration fnmatch module' 
for fileName in os.listdir ( '/root/python/file' ): 
if fnmatch.fnmatch(fileName, '*.txt'): # 利 用 UNIX 风 格 的 通 配 ， 只 显示 后 组 为 txXt 
print fileName 


print 'demonstration glob module' 


for fileName in glob.glob ( '*.txt' ): # 利 用 UNIX 风 格 的 通 配 ， 只 显示 后 组 为 txXt 
print fileName 


国 于 一 





。 获取 文件 状态 


#!/Uusr/bin/env python 
#-*- encoding:UTF-8 -*- 


import os,time,stat 


filestats = os.stat ( 'test.txt' ) # 获 取 文 件 / 目 录 的 状态 
fileInfo = { 
'Size' :fileStats [ stat.ST_SIZE ], # 获 取 文 件 大 小 


'LastModified':time.ctime( fileStats [ stat.ST_MTIME ] )， # 获 取 文 件 最 后 修改 时 间 
'LastAccessed':time.ctime( fileStats [ stat.ST_ATIME ] )， # 获 取 文 件 最 后 访问 时 间 
'CreationTime':time.ctime( fileStats [ stat.ST_CTIME ] )， # 获 取 文件 创建 时 间 
'Mode' :fileStats [ stat.ST_MODE ] # 获 取 文 件 的 模式 

} 

#print fileInfo 


for field in fileInfo: # 显 示 对 象 内 容 
print '%s:%s' % (field,fileInfo[field]) 


#for infoField,infoValue in fileInfo: 


# print '%s:%s' % (infoField,infoValue) 
if stat.Ss_ISDIR ( fileStats [ stat.ST_MODE ] ): # 判 断 是 否 路 径 
print "Directory， ' 
else: 
print 'Non-directory.' 
if stat.S_ISREG ( fileStats [ stat.SsST MODE ] ): # 判 断 是 否 一 般 文 件 
print ' Regular file.' 
elif stat.S_ISLNK ( fileStats [ stat.ST_MODe ] ): # 判 断 是 否 链接 文件 
print "Shortcut ,， 
elif stat.S_ISSOCK ( filestats [ stat.ST_MODe ] ): # 判 断 是 否 套 接 字 文件 
print 'Socket.' 
elif stat.S_ISFIFO ( filestats [ stat.ST_MODe ] ): # 判 断 是 否 命名 管道 
print "Named pipe.' 
elif stat.S_ISBLK ( fileStats [ stat.ST_MODe ] ): # 判 断 是 否 块 设 备 
print "Block Special device.' 
elif stat.S_ISCHR ( fileStats [ stat.ST_MODe ] ): # 判 断 是 否 字符 设置 











print "Character Special device.' 


#!/usr/bin/env python 
#-*- encoding:UTF-8 -*- 


import os.path 
filestats = "test.txt' 


If os.path.isdir ( fileStats ): 
print 'Directory.’ 

elif os.path.isfile ( fileStats ): 
print 'File.' 

elif os.path.islink ( fileStats ): 
print 'Shortcut.' 

elif os.path.ismount ( fileStats ): 
print 'Mount point , 


stat 模 块 描 述 了 os.stat(filename) 返 
stat 模 块 存 取 os.stat() 中 的 值 。 


。 品行 化 文件 


#!/usr/bin/env python 
#-*- encoding:UTF-8 -*- 


import pickle 


filehandler = open('pickle.txt','w') 


text = ['this is a pickle demonstrate','aa 


pickle.dump(text,filehandler) 
filehandler .close() 
filehandler2 = open('pickle.txt') 


textlist = pickle.load(filehandler2) 
print textlist 


filehandler2.close() 


#cpickle 是 用 C 写 


。 内 存 文件 


#!/Uusr/bin/env python 
#-*- Coding: utf-8 -*- 


import StringIO 


fileHandle = StringI0.StringI0 ( "Let freedom ring." ) 


号 的 pickle 模 块 ， 比 标准 的 pijckle 速 


# 判 断 是 否 一 般 文件 
# 判 断 是 否 链接 文件 


# 判 断 是 否 挂 接点 


回 的 文件 属性 列表 中 各 值 的 意义 。 我 们 可 方便 地 根据 


','bb'] 


# 把 text 的 内 容 序 列 化 后 保存 到 pickle .txt 文 件 中 


# 还 原 序 列 化 字符 串 


度 快 很 多 ， 使 用 方法 同 pickle。 


#create file in memory 


print fileHandle.read() # "Let freedom ring." 


fileHandle.close() 


#CStringI0 是 用 C 写 的 StringI0 模 块 ， 执 行 速 度 


shutil 模 块 是 一 个 高 


度 比 StringI0 快 。 


级 的 文件 处 理 模 块 ， 可 实现 文件 的 拷贝 、 删 除 等 操作 。 


Chapter 10. 正则 表达 式 


正则 表达 式 是 一 个 很 有 用 的 工具 ， 可 处 理 复 条 的 字符 匹配 和 替换 工作 。 在 Python 中 内 置 了 一 
个 re 模块 以 支持 正则 表达 式 。 


正则 表达 式 有 两 种 基本 的 操作 ， 分 别 是 匹配 和 替换 。 
。 匹配 就 是 在 一 个 文本 字符 串 中 搜索 匹配 一 特殊 表达 式 ; 


。 输 换 就 是 在 一 个 字符 串 中 查找 并 替换 匹配 一 特殊 表达 式 的 字符 串 。 


10.1. 基本 元 素 


正则 表达 式 定义 了 一 系列 的 特殊 字符 元 素 以 执行 匹配 动作 。 


Table 10.1. 正则 表达 式 基 本 字符 


2 描述 
text 匹配 text 字 符 囊 
匹配 除 换行 符 之 外 的 任意 一 个 单个 字符 
匹配 一 个 字符 串 的 开头 
$ 匹配 一 个 字符 串 的 末尾 


在 正则 表达 式 中 ， 我 们 还 可 用 匹配 限定 符 来 约束 匹配 的 次 数 。 


Table 10.2. 匹配 限定 符 


最 大 匹配 。 最 小 匹配 描述 
重复 匹配 前 表达 式 零 次 或 多 次 

+ + 重复 匹配 前 表达 式 一 次 或 多 次 

? ? 重复 匹配 前 表达 式 零 次 或 一 次 

{m} {m} 精确 重复 匹配 前 表达 式 m 次 

{m,} {m,} 至 少 重复 匹配 前 表达 式 m 次 

{m,n} {m,n} 至 少 重复 匹配 前 表达 式 m 次 ， 至 多 重复 匹配 前 表达 式 n 次 


据 上 所 述 ，".*" 为 最 大 匹配 ， 能 匹配 源 字 符 串 所 有 能 匹配 的 字符 串 。"* "为 最 小 匹配 ， 只 匹配 
第 一 次 出 现 的 字符 串 。 如 : d.*g 能 匹配 任意 以 d 开 头 ， 以 g 结 尾 的 字符 串 ， 

如 "debug" 和 "debugging"， 甚 至 "dog is walking"。 而 d.* g 只 能 匹配 "debug"， 在 "dog is 
walking" 字 符 串 中 ， 则 只 匹配 到 "dog "。 


在 一 些 更 复杂 的 匹配 中 ， 我 们 可 用 到 组 和 运算 符 。 


Table 10.3. 组 和 运算 符 


组 描述 
[...] 匹配 集合 内 的 字符 ， 如 [a-z],[1-9] 或 [,./; 
匹配 除 集合 外 的 所 有 字符 ， 相 当 于 取 反 操作 
AlB 匹配 表达 式 A 或 B， 相 当 于 OR 操作 
(人 表达 式 分 组 ， 每 对 括号 为 一 组 ， 如 ([a-b]+)([A-Z]+)([1-9]+) 
number 匹配 在 number 表 达 式 组 内 的 文本 


有 一 组 特殊 的 字符 序列 ， 用 来 匹配 具体 的 字符 类 型 或 字符 环境 。 如 \b 匹 配 字符 边界 ，food\b 匹 
配 "food"、"zoofood"， 而 和 "foodies" 不 匹配 。 


Table 10.4. 特殊 字符 序列 


描述 
只 匹配 字符 串 的 开始 

\b 匹配 一 个 单词 边界 

\B 匹配 一 个 单词 的 非 边界 

\d 匹配 任意 十 进 制 数字 字符 ， 等 价 于 r[0-9] 

\D 匹配 任意 非 十 进 制 数字 字符 ， 等 价 于 p0-9 

's 匹配 任意 空格 字符 (空格 符 、tab 制 表 符 、 换 行 符 、 回 车 、 换 页 符 、 重 直线 符号 ) 

\S 匹配 任意 非 空格 字符 

Ww 匹配 任意 字母 数字 字符 

\W 匹配 任意 非 字 母 数 字 字 符 

Zz 仅 匹 配 字符 串 的 尾部 

\ 匹配 反 斜 线 字 符 


有 一 套 声 明 (assertion) 对 具体 事件 进行 声明 。 


Table 10.5. 正则 表达 式 声明 


声明 妆 述 


(iLmsux) 匹配 空 字 符 串 ，iLmsux 字 符 对 应 下 表 的 正则 表达 式 修 饰 符 。 


(Es) 匹配 圆 括号 内 定义 的 表达 式 ， 但 不 填充 字符 组 表 。 

( 匹配 圆 括号 内 定义 的 表达 式 ， 但 匹配 的 表达 式 还 可 用 作 name 标 识 的 符号 
P<name>) 组 。 

3 匹配 所 有 与 前 面 命名 的 字符 组 相 匹配 的 文本 。 

P=name) 

(#...) 引入 注释 ， 忽 略 圆 括号 内 的 内 容 。 


如 果 所 提供 的 文本 与 下 一 个 正则 表达 式 元 素 匹 配 ， 这 之 间 0 
就 匹配 。 这 允许 在 一 个 表达 式 中 进行 超前 操作 ， 而 不 影响 正则 表达 式 其 
全 部 分 的 分 析 。 如 "Martin" 其 后 紧 跟 "Brown"， 则 "Martin( =Brown)" 就 只 
Lb 配 。 


(1..) 仅 当 指定 表达 式 与 下 一 个 正则 表达 式 元 素 不 匹配 时 匹配 ， 是 ( =...) 的 反 操 
l... 人 


如 果 字 符 串 当前 位 置 的 前 组 字符 串 是 给 定 文本 ， 就 匹配 ， 整 个 表达 式 就 在 
Be 当前 位 置 终止 。 如 ( <=abc)def 表 达 式 与 "abcdef" 匹 配 。 这 种 匹配 是 对 前 级 
字符 数量 的 精确 匹配 。 
| 如 果 字 符 串 当前 位 置 的 前 组 字符 串 不 是 给 定 的 正文 ， 就 匹配 ， 是 ( <=...) 的 
( <!...) 反 操作 。 
下 
正则 表达 式 还 支持 一 些 处 理 标志 ， 它 会 影响 正则 式 的 执行 方法 。 


Table 10.6. 处 理 标志 


标志 首 述 
| 或 IGNORECASE 忽略 表达 式 的 大 小 写 来 匹配 文本 。 


10.2. 操作 


通过 re 模块 ， 我 们 就 可 在 python 中 利用 正则 式 对 字符 串 进 行 搜索 、 抽 取 和 替换 操作 。 如 : 
re.search() 遂 数 能 执行 一 个 基本 的 搜索 操作 ， 它 能 返回 一 个 MatchObject 对 象 。re.findall() 溃 数 
能 返回 匹配 列表 。 


>>> import re 

>>> a="this is my re module test" 

>>> obj = re.search(r'.*is',a) 

>>> print obj 

<_sre.SRE Match object at 0xb7d7a218> 
>>> obj .group() 

"this is' 

>>> re.findall(r'.*is',a) 

['this is'] 


MatchObject 对 象 方法 


Table 10.7. MatchObject 对 象 方法 


方法 


expand(template) 


m.group([group,...]) 


m.groups([default]) 


m.groupdict([default]) 


m.start([group]) 
m.end([group]) 


m.Span([group]) 


m.pos 
m.endpos 
m.lastindex 
m.lastgroup 
m.re 


m.string 


描述 
展开 模板 中 用 反 斜 线 定 义 的 内 容 。 
返回 匹配 的 文本 ， 是 个 元 组 。 此 文本 是 与 给 索引 
数字 定义 的 组 匹配 的 文本 ， 如 果 没 有 组 定 组 名 ， 则 3 返回 所 有 匹配 
项 O 


返回 一 个 元 组 ， 该 元 组 包含 模式 中 与 所 有 组 匹配 的 文本 。 如 果 给 
出 default 参 数 ，default 参 数值 就 是 与 给 定 表 达 式 不 匹配 的 组 的 返 
回 值 。default 参 数 的 默认 取 值 为 None。 


返回 一 个 字典 ， 该 字典 包含 匹配 的 所 有 子 组 。 如 果 给 出 default 参 
数 ， 0 回 值 。default 参 数 的 默认 取 值 为 
None。 


返回 指定 group 的 开始 位 置 ， 或 返回 全 
返回 指定 group 的 结束 位 置 ， 或 返回 全 部 匹配 的 结束 位 置 。 


返回 两 元 素 组 ， 此 元 组 等 价 于 关于 一 给 定 组 或 一 个 完整 匹配 表达 
式 的 (m.start(group),m.end(group))) 列 表 


传递 给 match() 或 search() 函 数 的 pos 值 。 


部 匹配 的 开始 位 置 。 


传递 给 match() 或 search() 函 数 的 endpos 值 。 


创建 这 个 MatchObject 对 象 的 正则 式 对 象 


提供 给 match() 或 search() 函 数 的 字符 串 。 


使 用 sub() 或 subn() 函 数 可 在 字符 串 上 执行 替换 操作 。sub() 函 数 的 基本 格式 如 下 : 


sub(pattern,replace, string[,count]) 


示例 


>>> Str = 'The dog on my bed' 
>>> rep = re.sub('dog','cat',str) 


>>> print rep 
The cat on my bed 


replace 参 数 可 接受 函数 。 要 获得 替换 的 次 数 ， 可 使 用 Subn() 函 数 。subn() 函 数 返 回 一 个 元 
组 ， 此 元 组 包含 替换 了 的 文本 和 替换 的 次 数 。 


如 果 需 用 同一 个 正则 式 进 行 多 次 匹配 操作 ， 我 们 可 把 正则 式 编译 成 内 部 语言 ， 提 高 处 理 速 
度 。 编 译 正 则 式 用 compile() 函 数 来 实现 。compile() 函 数 的 基本 格式 如 下 : 


compile(str[,flags]) 


Str 表示 需 编译 的 正则 式 囊 ，flags 是 修饰 标志 符 。 正 则 式 被 编译 后 生成 一 个 对 象 ， 该 对 象 有 多 


种 方法 和 属性 。 
Table 10.8. 正则 式 对 象 方 法 /属性 


方法 /属性 
rSearch(string[,pos[,endpos]]) 
rmatch(string[,pos[,endpos]]) 
r.split(string[,max]) 
r.findall(string) 
rSub(replace,string[,count]) 
r.subn(replace,string[,count]) 
r.flags 
r.groupindex 


r.pattern 


转 义 字符 串 用 re.escape() 函 数 。 


通过 getattr 获 取 对 象 引 用 


>>> = [av bl 

>>> getattr(1i,'append') 

>>> getattr(1i,'append')('c') 
>>> 1i 

[ea on Ee 


描述 
同 search() 骂 数 ， 但 此 兄 数 允许 指定 搜索 的 起 点 和 终点 
同 match() 函 数 ， 但 此 函数 允许 指定 搜索 的 起 点 和 终点 
同 split() 况 数 
同 findall() 辑 数 
同 sub() 浮 数 
同 subn() 辑 数 
创建 对 象 时 定义 的 标志 
将 Pr( Pid)' 定 义 的 符号 组 名 字 映 射 为 组 序号 的 字典 
在 创建 对 象 时 使 用 的 模式 


# 相 当 于 ]i.append('c') 


>>> handler=getattr(1i,'append',None) 


>>> handler 


<built-in method append of list object at 0xb7d4a52c> 


>>> handler('cc') 

>>> 1i 

[ea Diop CGC 
>>>result = handler('bb') 
>>>11i 

[ery Ho OG Cu 'bb'] 
>>>print result 

None 


Chapter 11. 调试 


# 相 当 于 ]i.append('cc') 


Python 自 带 了 一 个 调试 器 叫 pdb， 和 Gnu 的 gbd 类 似 。 下 面 用 一 个 简单 的 程序 来 演示 pdb 的 功 
能 。 程 序 代码 如 下 : 


#!/UusSr/bin/python 
import pdb 

a = "aaa" 
pdb.set_trace() 

b = "bbb" 


final =a+b+c 
print final 


该 程序 已 导入 pdb 模 块 ， 并 在 代码 中 添加 的 pdb.set_trace() 跟 踪 点 。 现 在 让 我 们 来 运行 该 程 
这 


localhost:~/python/pdb# python pdbtest.py 


--Return-- 
> /usr/lib/python2.3/pdb.py(992)set_trace()->None 
-> Pdb().set_ trace() # 从 跟踪 点 开始 执行 
(Pdb) n # mn 读 入 下 一 行 代码 
> /root/python/pdb/pdbtest.py(6) () 
a b 二 0 | 3) 
(Pdb) n 
> /root/python/pdb/pdbtest.py(7) () 
Wy 它 二 CC 
(Pdb) pb # p 打印 变量 值 
"bbb 
(Pdb) 1 # 1 显示 当前 执行 位 置 
2 
3 Import pdb 
4 a = "aaa" 
5 pdb.set_trace() 
6 b = "bbb" 
7 .CCC 
8 final =a+b+c 
9 print final 
10 
[EOF] 
(Pdb) n 


> /root/python/pdb/pdbtest.py(8) () 

-> final = a + b+C 

(Pdb) n # 如 果 命令 和 上 次 的 一 样 ， 也 可 直接 按 回 车 ， 不 用 输入 "n' 
> /root/python/pdb/pdbtest.py(9) () 

-> print final 

(Pdb) n 

aaabbbccc 

--Return-- 

> /root/python/pdb/pdbtest.py(9) ()->None 
-> print final 

(Pdb) p a,b,c,final 

('aaa', 'bbb', 'ccc', 'aaabbbccc') 


(Pdb) 

('aaa', 'bbb', 'ccc', 'aaabbbccc') 

(Pdb) n 

localhost:~/python/pdb# # 返回 shell 


pdb 还 有 很 多 命令 ， 用 help 命 令 就 可 以 列 出 所 有 的 pdb 命令 ， 用 help p 可 以 查询 p 命 令 的 说 明 。 


Chapter 12. HOW-TO 


本 章 内 容 记 录 Python 的 一 些小 技巧 小 知识 。 来 源 是 网 上 摘录 或 自己 学 习 所 得 。 


e 如 何 判断 操作 系统 类 型 


import sys 
print sys.platform 
print sys.version 


e。 显示 和 修改 python 的 Module 搜 索 路 径 


>>> import sys 
>>> print sys.path 


['', '/usr/lib/python23.zip', '/usr/lib/python2.3', '/usr/lib/python2.3/plat-linux2', 
'/usr/lib/python2.3/1lib-tk', '/usr/lib/python2.3/1lib-dynload', '/usr/local/lib/pythrc 


'/usr/lib/python2.3/site-packages'] 
>>> sys.path.append('/usr/lib/mypath') 
>>> print sys.path 


['', '/usr/lib/python23.zip', '/usr/lib/python2.3', '/usr/lib/python2.3/plat-linux2', 


'/usr/lib/python2.3/1lib-tk', '/usr/lib/python2.3/1lib-dynload', '/usr/local/lib/pyt 
'/usr/lib/python2.3/site-packages', '/usr/lib/mypath'] 


回 本 = 二 Ps 
。 把 列表 转换 成 字符 囊 


ws t=['a', [or Ce] 

>>> print t 

a 加 6 Co 

>>> import string 

>>> print string.join(t) 
abc 


e。 运行 系统 程序 


>>>import os 


>>>0s.system('1s') # 用 OS .System( ) 可 执行 系统 命令 
>>>exec "os.system('1s')" # 用 eXec 可 执行 字符 囊 中 的 命令 ， 两 个 命令 的 效果 一 样 。 


以 上 两 个 命令 的 输出 都 是 直接 显示 在 屏幕 上 ， 不 能 保存 到 变量 中 ， 如 果 我 们 要 把 输出 保 
存 起 来 ， 可 用 os.pope\ n() 有 函数。 
>>>cmd = '/usr/bin/mkntpwd %s' % password 


>>>handler = os.popen(cmd,'r') 
>>>passwordString=handler.read()  #passwordString 为 mkntpwd 程 序 的 输出 结果 





hor 


| 


使 用 commands 模 块 也 可 以 获取 程序 的 输出 ， 它 包含 一 些 基于 os.popen() 的 封装 函数 ， 使 


我 们 能 更 方便 地 获取 运行 系统 命令 和 获取 命令 的 和 输出， 但 该 模块 只 在 Unix 系 统 下 有 效 ， 
不 能 用 于 Windows 平 台 。 


>>> import commands 
>>> status,output = commands.getstatusoutput('ls -1') 
>>> print output 


总 计 96564 

-rw-r--r-- 1 root root 4459 2005-12-01 10:23 2005.sxw 
-rw-r--r-- 1 root root 27511 2006-04-12 16:54 20060412_user .ods 
-rw-r--r-- 1 root root 202258 2006-01-06 16:48 2006 风 景 -1 月 .jpg 


>>> print status 
0 


在 Python2.4 中 引入 一 个 新 的 模块 叫 subprocess， 用 于 取代 os.system、os.spawn*、 
os.popen* 、popen2.*、commands.*。 


。 编码 转换 


#!/UusSr/bin/python 
#-*-COoding:utf-8 -*- 


a=u" 测试" 
b=a.encode( 'gb2312 ' ) 
print a 

print b 


。 交换 两 个 变量 


Lm 
1 
IN 


V 

V 

V 

momoNo 

J 

ll 

CR 

几 


。 测试 数据 类 型 


>>> a=123 

>>> b= 'test' 

>>> a 

123 

>>> b 

EC SE 

>>> isinstance(a,int) 
True 

>>> isinstance(a, str) 
False 

>>> isinstance(b,int) 
False 

>>> isinstance(b, str) 
True 


。 用 in 判断 是 否 包含 子 字符 串 


>>> a='this is my test' 
>>> 'is' In a 

True 

>>> 'mm' in a 

False 


、 0 


。 _iter 和 迭代 器 


>>> a = "iterator" 
>>> t = iter(a) 
>>> t.next() 

7 

>>> t.next() 

i 

>>> t.next() 
Dy 

>>> t.next() 
i 

>>> t.next() 

> 

>>> t.next() 

A 

>>> t.next() 
ey 

>>> t.next() 

LY 


>>> t.next() 

Traceback (most recent call last): 
File "<stdin>", line 1, in 

StopIteration 


>>> class reverse: 

def _ init (self,data): 
self.data=data 
self.index=len(data) 

def _ iter__(self): 
return self 

def next(self): 
if self.index == 

raise StopIteration 

self.index = self.index - 1 
return self.data[self.index] 


>>> for char in reverse('iterator'): 
print char 


Fronnpron: 


这 这 


。 通过 getattr 可 以 得 到 一 个 在 运行 时 才 知 道具 体 函 数 名 的 对 象 的 引用 ， 能 增强 我 们 程序 的 灵 
活性 。 


>>>0 = au eb] 
>>> getattr(1i,'append') 
>>> getattr(1i,'append')('c') # 相 当 于 ]i.append('c') 
>>> 1i 
Bean Woks EEC 全 
>>> handler=getattr(1i, 'append', None) 
>>> handler 
<built-in method append of list object at Oxb7d4a52c> 
>>> handler('cc') # 相 当 于 ]i.append('cc') 
之 过 之 
a 0 ese (exe ua]| 
>>>result = handler('bb') 
>>>1i 
Wau 8) 这 人 "bb '] 
>>>print result 
None 


编程 示例 : 


import statsout 
def output(data, format="text"): 


output_function = getattr(statsout, "output_ %s" % format) 
return output_function(data) 


以 上 代码 表示 ，output 函 数 接收 一 个 data 参 数 和 format 参 数 ， 根 据 format 参 数 的 值 ， 从 
statsout 模 块 中 取出 output_text 驾 数 运行 ，data 和 参数 通过 output_function(data) 传 递 给 了 
statsout 模 块 中 的 output_text 亟 数 。format 取 不 同 值 可 从 statsout 模 块 中 取出 不 同 的 函数 运 
行 (output_xxxx) 。 也 就 是 说 我 们 要 运行 的 函数 是 在 程序 运行 后 才 确 定 的 。 这 样 我 们 可 
把 不 同 的 函数 以 output_XXx 形 式 命名 放 在 statout 模 块 中 ， 通 过 以 上 程序 可 动态 调用 各 种 函 
数 。 

hasattr 用 于 确定 一 个 对 象 是 否 具有 某 个 属性 。 


语法 : 


hasattr(object, name) -> bool 


判断 object 中 是 否 有 name 属 性 ， 返 回 一 个 布尔 值 。 
拆 分 序列 


>>> a=[c for c in 'abcdefg'] 
>>> a 

a Ul op I ol Ee 让 ca 
>>> 


按 if 条 件 拆 分 序列 


>>> a=[c for c in '123456' if int(c)<3] 如 果 if 的 条 件 为 夏 ， 则 执行 for 循 环 


>>> a 
[lss S200 

>>> a=[c for c in '123456' if int(c)>3] 如 果 if 的 条 件 为 假 ， 则 不 执行 for 循 环 
>>> a 


Wa SD: '6'] 


e。 _ dict 记录 模块 或 类 中 所 有 对 象 的 信息 ， 典 {name:object} 的 形式 记录 这 些 信息 
如 果 Wwikiaction 是 一 个 模块 ， 则 可 以 这 样 显示 : 


>>>import wikiaction 
>>>print wikiaction. dict _ 


{'do_test': <function do_ test at QOxb7c10534>, 'do_diff': <function do_diff at 0xb7c9k 
ction do_refresh at 0xb7c1025c>， 'do_ userform': <function do_userform at 0xb7c103e4>， 


getHandler at 0xb7c105a4>， 'do_raw': <function do_raw at QOxb7c10454>, 'do_chart ' : 


c104c4>, 're': <module 're' from '/usr/lib/python2.3/re.pyc'>, 'pysupport ': <module 


from '/usr/lib/python2.3/site-packages/MoinMoin/util/pysupport.pyc'>, 'config': 
om '/usr/lib/python2.3/site-packages/MoinMoin/config.pyc'>} 


EE | 
。 'and' 的 特殊 用 法 


2 'a' and 'b' # 如 果 两 个 都 为 丨 值 ， 返回 最 后 一 个 监 值 
>>> 'b' and 'a' # 同 上 

>>> 'a' and 'b' and 'c' # 同 上 

>>> and a # 如 果 有 假 值 ， 则 返回 假 值 

5 'a' and '' and 'c' # 同 上 

2 '' and 0 # 如 果 两 个 都 为 假 值 ， 返 回 第 一 个 假 值 
>>> 0 and '!' # 同 上 

0 


e。 'or 的 的 特殊 用 法 


>>> EGR # 如 果 有 一 个 为 申 值 ， 则 返回 第 一 个 监 值 
>>> 'b' or "al' # 同 上 
>>> eaeonme one, # 同 上 
。 0 and '' and {} # 如 果 所 有 都 是 假 值 ， 则 返回 第 一 个 假 值 
> {} and '' and { # 同 上 


e lambda 匿 名 部 数 的 用 法 





>>> a=lambda c:c*2 

>>> a 

<function <lambda> at 0xb7dd710c> 
>>> a(2) 

4 

>>> a(5) 

10 
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Abstract 
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1.1. 安装 


1.1.1. 下 载 相关 软件 


e 到 http://www.pythonware.com/products/pil/index.htm 下 载 最 新 版 的 PlL 安 装 程序 。 这 里 介 


Chapter 1. Python Imaging Library(PIL) 


PIL(Python 图 形 库 ) 为 python 提 供 强 大 的 图 形 处 理 的 能 力 ， 并 提供 广泛 的 图 形 文件 格式 支持 ， 
当前 最 新 的 版 本 是 1.1.4。 可 到 以 下 网 址 http://www.pythonware.com/products/pil/index.htm 了 
进行 图 形 格 式 的 转换 、 打 印 和 显示 。 还 能 进行 一 些 图 形 效 果 的 处 
理 ， 如 图 形 的 放大 、 缩 小 和 旋转 等 。 是 Python 用 户 进行 图 象 处 理 的 强 有 力 工具 。 


绍 的 是 在 linux 下 的 安装 方法 。windows 平 台 的 安装 方法 较 简 单 ， 只 要 双击 安装 程序 ， 就 可 


一 步 步 安装 好 了 站 


e 如 果 要 PIlL 支 持 jpeg 格 式 文件 ， 


新 ae o 


1.1.4.tar.gz ° 


1.1.2. 开始 安装 


安装 jpeg 库 文件 ， 可 到 http://www.ijg.org 下 载 ， 现 时 最 


。 先 安装 jpeg 库 ， 输 入 以 下 命令 进行 安装 : 


tar xfz jpegsrc.v6b.tar.gz 
cd jpeg-6b 

./configure 

make 

make test 

make install 

make install-1ib 


。 接着 安装 Zlib 库 ， 输 入 以 下 命令 进行 安装 : 


tar xfz zlib-1.1.4.tar.gz 
cd zl1ib-1.1.4 

./configure 

make 

make install 


。 最 后 安装 PIL， 输 入 以 下 命令 进行 安装 : 


tar xfz Imaging-1.1.4.tar.gz 
cd Imaging-1.1.4 

cd libImaging 

./configure 

make 

Cd 

python setup.py build 

python setup.py install 


。 测试 安装 是 否 成 功 ， 可 以 在 Python 的 命令 行 界 面 输入 以 下 代码 : 


>>>import Image 
>>>im = Image.open("test.jpg") 
>>>im. show( ) 


如 果 成 功 打 开 test.jpg 图 片 则 安装 成 功 。 注 意 ， 在 linux 中 ， 需 要 用 xv 程 序 来 显示 图 片 ， 所 
以 如 果 没 装 xv，python 会 提示 找 不 到 xv。 可 到 http://www.trilon.com/xv/downloads.html 下 
载 XV。 


Chapter 2. Pmw(Python megawidgets)Python 起 级 
GUI 组 件 集 


Pmw 是 一 个 在 python 中 利用 Tkinter 模 块 构建 的 高 级 GUI 组 件 ， 每 个 Pmw 都 合并 了 一 个 或 多 个 
Tkinter 组 件 ， 以 实现 更 有 用 和 更 复杂 的 功能 。 如 ，Pmw 中 的 一 个 ScrolledListBox (滚动 列表 
框 ) 实现 了 Tkinter 的 Scrollbar (滚动 条 ) 和 ListBox (列表 框 ) 功能 ， 使 我 们 编程 更 方便 。 如 
果 你 在 Python 中 开发 GUI 程序 ，Pmw 有 是 将 是 你 的 一 个 好 帮手 。 


2.1. 妇 装 


现在 最 新 的 Pmw 是 1.2 版 ，Pmw 的 安装 比较 简单 ， 只 要 到 http://pmw.sourceforge.net/ 下 载 软 

件 ， 然 后 用 tar -zxvf 命 令 解 压 文件 ， 把 解压 出 oie 录 拷 到 python 的 模块 目录 下 就 可 以 

了 ， 如 site-packages 目录 。Wwindows 和 平台 使 用 同一 压缩 包 ， 安 装 方法 也 一 样 。 安 装 完成 后 可 
登录 进 python 的 命令 行 界 面 运行 “4import apo 安装 成 功 ， 如 果 没 有 出 错 信息 ， 则 安 
装 成 功 ， 可 以 使 用 了 。 


2.2. 模块 功能 演示 


2.2.1. ScrolledListBox( 滚 动 列 表 框 ) 


#ScrolledListBox used to select image. 


from Tkinter import * 
import Pmw 


class ImageSelection( Frame ): 
"""List of available images and an area to display them""" 


def _init ( self, images ): 
"""Create list of PhotoImages and Label to display them""" 


Frame._ init ( self ) 
Pmw.initialise() 

self.pack( expand = YES, fill = BOTH ) 
self.master.title( "Select an image" ) 


self.photos = [] 


#add PhotoImage object to list photos 
for item in images: 
self.photos.append( PhotoImage( file = item ) ) 


#create scrolled list box with vertical scrollbar 
self.listBox = Pmw.ScrolledListBox( self, items = images, 

listbox_height = 3, 

vscrollmode = "static", 

selectioncommand = self.switchImage ) 
self.listBox.pack( side = LEFT, expand = YES, fill = BOTH, padx = 5, pady = 5 ) 


self.display = Label( self, image 
self.display.pack( padx = 5, pady 


= self.photos[0] ) 
=5) 
def SwitchImage ( Self ): 

"" "Change image in Label to current selection""" 


#get tuple containing index of selected list item 
chosenPicture = self.]istBox.curselection() 


#configure label to display selected image 

If chosenPicture : 
choice = int( chosenPicture[0] ) 
self.display.config( image = Self.photos[ choice ] ) 


def main(): 
images = [ "c:\python23\10go.gif", "c:\python23\china.gif", "c:\python23\canada.gif", 
ImageSelection(images).mainloop() 


if name == maaan 
main() 


轩 = 于 宇 eeeeesessesi 








2.2.2. ScrolledText (滚动 文本 框 ) 


#Copying selected text from one text area to another. 


from Tkinter import * 
import Pmw 


class CopyTextWindow( Frame ): 
"""Demonatrate ScrolledText""" 


de omnimnateal( ser ns 
"""Create two ScrolledText and a Button""" 


Frame. init ( Self ) 

Pmw.initialise() 

self.pack( expand = YES, fill = BOTH ) 
self.master.title( "ScrolledText Demo" ) 


#create scrolled text box with word wrap enable 

self.text1 = Pmw.ScrolledText( self, text width = 25, text_height = 12, 
text_wrap = WORD, hscrollmode = "static", 
vscrollmode = "static" ) 

Self.text1.pack( side = LEFT, expand = YES, fill = BOTH, padx = 5, pady = 5 ) 


self.copyButton = Button( self, text = "Copy >>>", command = self.copyText ) 
self.copyButton.pack( side = LEFT, padx = 5, pady = 5 ) 


#create uneditable scrolled text box 
self.text2 = Pmw.ScrolledText( self, text_state = DISABLED, text_ width = 25, 
text_height = 12, text_wrap = WORD, 
hscrollmode = "static", vscrollmode = "static" ) 
self.text2.pack( side = LEFT, expand = YES, fill = BOTH, padx = 5, pady = 5 ) 


def copyText( self ): 
"""Sset the text in the second ScrolledText""" 


self.text2.settext( Self.text1.get( SEL_FIRST,SEL LAST ) ) 


def main(): 
CopyTextwindow( ).mainloop() 


3 name == ma 
main() 


和 





Chapter 3. PyXML 


PyXML 是 一 套用 Python 解 析 和 处 理 XML 文 档 的 工具 包 ， 包 中 的 4DOM 是 完全 相 容 于 W3C 
DOM 规 范 的 。 它 包含 以 下 内 容 : 


。 xmlproc: 一 个 符合 规范 的 XML 解 析 器 。 

e Expat: 一 个 快速 的 ， 非 验证 的 XML 解 析 器 。 

e。 sgmlop: a C helper module that can speed-up xmllib.py and sgmllib.py by a factor of 5. 
。 PySAX: SAX 1 and SAX2 libraries with drivers for most of the parsers. 


e。 4DOM: A fully compliant DOM Level 2 implementation 


。 javadom: An adapter from Java DOM implementations to the standard Python DOM 
binding. 


e。 pulldom: a DOM implementation that supports lazy instantiation of nodes. 


。 marshal: a module with several options for serializing Python objects to XML, including 
WDDX and XML-RPC. 


3.1. 女装 

到 http://sourceforge.net/project/showfiles.php group_id=6473 下 载 最 新 版 的 模块 ， 现 在 是 
PyXML-0.8.3。 安 装 PyXML 需 要 有 python2.0 以 上 及 以 上 的 版 本 。 下 载 完 成 后 用 tar 解 压缩 生成 
PyXML-0.8.3 目 录 ， 进 入 该 目录 并 运行 python setup.py build 和 python setup.py install 完 成 安 
装 。 测 试 方法 是 进入 命令 行 交互 界面 运行 "Import xml.dom.ext" 命 令 ， 如 果 没 提示 模块 出 错 则 
说 明 安装 成 功 。PyXML 提 供 windows 平 台 的 安装 包 ， 下 载 后 双击 运行 就 可 以 了 。 


3.2. 使 用 


由 于 该 模块 的 内 容 较 多 ， 所 以 该 模块 的 详细 使 用 将 我 在 “PyXML 学 习 笔 记 " 中 单独 讨论 。 


Chapter 4. PyGame 


PyGame 是 一 组 用 于 多 媒体 开发 和 游戏 软件 开发 的 模块 。 


Chapter 5. PyOpenGL 


PyOpenGL 模 块 封装 了 “OpenGL 应 用 程序 编程 接口 '， 通 过 该 模块 python 程 序 员 可 在 程序 中 集 
成 2D 和 3D 的 图 形 。 


Chapter 6. NumPy 和 Numarray 


NumPy 是 Python 的 一 个 扩展 库 ， 主 要 用 于 处 理 任意 维 数 的 国定 类 型 数组 ， 它 的 低层 代码 使 用 
C 来 编写 ， 所 以 速度 的 优势 很 明显 。Numarray 是 NumPy 的 一 个 改进 版 ， 用 于 取代 NumPy 。 


Chapter 7. MySQLdb 


MySQLdb 模 块 用 于 连接 MySQL 数 据 库 。 源 码 位 于 http:/sourceforge.net/projects/mysd|- 
python， 这 里 还 有 用 于 zope 的 ZMySQLDA 模 块 ， 通 过 它 就 可 在 zope 中 连接 mysql 数 据 库 。 


7.1. 安装 


安装 的 方法 在 解压 目录 的 README 文 件 中 有 详细 说 明 。 不 难 ， 这 里 就 不 详细 讲 了 。 要 注意 的 
一 点 是 ， 如 果 你 的 mysq| 不 是 安装 在 默认 的 路 径 ， 而 是 安装 在 /usr/local/mysql 这 样 的 路 径 的 
话 ，libmysqlclient.so.12 这 个 动态 库 python 可 能 会 找 不 到 ， 造 成 import 出 错 ， 解 决 方法 是 

在 /usr/lib 下 做 一 个 符号 连接 ，|n -s /usr/local/mysql/lib/mysql/libmysqlclient.so.12 
libmysqlclient.so.12。 最 后 在 python 中 用 import MySQLdb 测 试 ， 如 果 没 有 出 错 信 息 就 说 明 安 
装 成 功 ， 可 以 连接 mysql 数 据 库 了 。 


7.2. 模块 功能 


。 connect() 方 法 用 于 连接 数据 库 ， 返 回 一 个 数据 库 连接 对 象 。 如 果 要 连接 一 个 位 于 
host.remote.com 服 务 器 上 名 为 fourm 的 MySQL 数 据 库 ， 连 接 串 可 以 这 样 写 : 


db = MySQLdb.connect(host="remote.com",Uuser="user",passwd="xxx", db="fourm" ) 


connect() 的 参数 列表 如 下 : 


o host， 连接 的 数据 库 服务 器 主机 名 ， 黑 认为 本 地 主机 (localhost)。 
o User， 连 接 数据 库 的 用 户 名 ， 默 认为 当前 用 户 。 


o passwd， 连 接 密 码 ， 没 有 默认 值 。 

o db， 连 接 的 数据 库 名 ， 没 有 默认 值 。 

o conv， 将 文字 映射 到 Python 类 型 的 字典 。 上 默认 为 MySQLdb.converters.conversions 
o cursorclass，cursor() 使 用 的 种 类 ， 上 默认 值 为 MySQLdb.cursors.Cursor。 
o compress， 启 用 协议 压缩 功能 。 

o named_pipe， 在 windows 中 ， 与 一 个 命名 管道 相连 接 。 

o init command ， 一旦 连接 建立 ， 就 为 数据 库 服 务 器 指定 一 条 语句 来 运行 。 
o read_default file， 使 用 指定 的 MySQL 配 置 文件 。 

o read_default_group， 读 取 的 默认 组 。 

o Unix_socket， 在 unix 中 ， 连 接 使 用 的 套 接 字 ， 默 认 使 用 TCP 。 

o port， 指 定数 据 库 服务 器 的 连接 端口 ， 默 认 是 3306。 


e。 连接 对 象 的 db.close() 方 法 可 关闭 数据 库 连 接 ， 并 释放 相关 资源 。 


。 连接 对 象 的 db.cursor([cursorClass]) 方 法 返回 一 个 指针 对 象 ， 用 于 访问 和 操作 数据 库 中 的 
数据 。 


。 连接 对 象 的 db.begin() 方 法 用 于 开始 一 个 事务 ， 如 果 数 据 库 的 AUTOCOMMIT 已 经 开启 就 
关闭 它 ， 直 到 事务 调用 commit() 和 rollback() 结 束 。 


e。 连接 对 象 的 db.commit(0 和 db.rollback() 方 法 分 别 表示 事务 提交 和 回 退 。 
e。 指针 对 象 的 cursor.close() 方 法 关闭 指针 并 释放 相关 资源 。 
。 指针 对 象 的 cursorexecute(query[,parameters]) 方 法 执行 数据 库 查 询 。 


。 指针 对 象 的 cursorfetchall() 可 取出 指针 结果 集中 的 所 有 行 ， 返 回 的 结果 集 一 个 元 组 
(tuples)。 


。 指针 对 象 的 cursorfetchmany([size=cursor.arraysize]) 从 查询 结果 集中 取出 多 行 ， 我 们 可 
利用 可 选 的 参数 指定 取出 的 行 数 。 


。 指针 对 象 的 cursorfetchone() 从 查询 结果 集中 返回 下 一 行 。 


e 指针 对 象 的 cursorarraysize 属 性 指定 由 cursorfetchmany() 方 法 返回 行 的 数目 ， 影 响 
fetchall() 的 性 能 ， 默 认 值 为 1。 


e@ 指针 对 象 的 cursor.rowcount 属 性 指出 上 次 查询 或 更 新 所 发 生 行 数 。-1 表 示 还 没 开 始 查询 
或 没有 查询 到 数据 。 


7.3. 模块 功能 演示 


#!/UusSr/bin/python 
import MySQLdb 


try: 

connection = MySQLdb.connect(user="user",passwd="password",host="xxx", db="test") 
except: 

print "Could not connect to MySQL server." 

exit( © ) 
try: 


cursor = connection.cursor() 
cursor.execute( "SELECT note_id,note detail FROM note where note id = 1" ) 
print "Rows selected:", cursor.rowcount 


for row in cursor.fetchall(): 
print "note : ", row[0], row[1] 
cursor.close() 


Chapter 8. Tkinter 模 块 


8.1. Tkinter 简 介 


Tkinter 是 Python 歌 认 的 图 形 界面 接口 ，Tkinter 是 一 个 和 Tk 接 口 的 Python 模块 ，Tkinter 库 提供 
了 对 Tk API 的 接口 ， 它 属于 Tcl/Tk 的 GUI 工 具 组 。Tcl/Tk 是 由 John Ousterhout 发 展 的 书写 和 图 
形 设 备 。Tcl( 工 具 命 令 语 言 ) 是 个 宏 语言 ， 用 于 简化 shell 下 复杂 程序 的 开发 ，Tk 工 具 包 是 和 Tc 
一 起 开发 的 ， 目 的 是 为 了 简化 用 户 接口 的 设计 过 程 。Tk 工 具 包 由 许多 不 同 的 小 部 件 ， 如 一 个 
按钮 、 一 个 滚动 条 等 。 通 过 Tk 提供 的 这 些小 部 件 ， 我 们 就 可 快速 地 进行 GUI 开 发 。Perl、 
Scheme 等 语言 也 利用 Tk 库 进行 GUI 开发 。Tkinter 是 跨 平 台 ， 在 各 种 平台 下 都 能 使 用 。 


Chapter 9. PyGTK 


PyGTK 是 一 个 用 于 python GUI 程序 开发 的 GTK+ 库 ， 当 前 版 本 的 PyGTK 需 要 GTK+ 2.0 以 上 版 
本 支持 和 Python 2.2 以 上 版 本 支持 才能 运行 。 


9.1. 安装 


如 果 是 在 Debian 系 统 中 ， 则 安装 python2.3-gtk2 软 件 包 即 可 。 如 果 要 从 源码 安装 ， 可 

到 http://www.pygtk.org 下 载 最 新 的 软件 包 。 安 装 方法 也 很 简单 ， 和 其 它 开源 软件 差不多 ， 通 
过 configure、make 和 make install 三 步 操 作 就 可 完成 。 具 体操 作 你 可 参考 源码 目录 下 的 
README 和 INSTALL 文 档 ， 里 面 有 详细 的 安装 说 明 。 注 意 ， 要 成 功 安装 PyGTK， 要 有 相应 版 
本 的 GTK+ 和 Python 支持 。 在 源码 目录 下 有 一 个 examples 目 录 ， 这 是 一 个 宝贵 的 资源 ， 里 面 
有 很 多 有 用 的 PyGTK 示 例 代 码 ， 对 我 们 学 习 PyGTK 很 有 帮助 。 


9.2. 示例 


下 面 是 一 个 PyGTK 的 示例 ， 演 示 了 PyGTK 的 基本 概念 。 


#!/usr/bin/env python 
#-*- encoding:utf-8 -*- 


import pygtk 
pygtk.require('2.0') 
import gtk 


class base: 
#destroy 信 号 的 回调 函数 
def destroy(self,widget, data=None ) : 
gtk.main_quit() 


#clicked 信 号 的 回调 函数 
def hello(self,widget, data): 
print 'hello ' + data + ' this is a button clicked() test' 


#delete_event 事 件 的 回调 函数 
def delete event(self, widget, event, data=None): 
print "delete event occurred" 
# 如 果 delete_event 事 件 返 回 假 ， 则 会 触发 destroy 信 号 ， 从 而 关闭 窗口 。 
# 如 果 返 回 夏 ， 则 不 会 关闭 窗口 。 这 个 特性 在 当 我 们 需要 一 个 确认 是 否 退 出 的 选择 对 话 框 时 是 很 有 用 。 
return gtk.FALSE 


def _ init (self): 
self.window = gtk.Window(gtk.WINDOW_TOPLEVEL ) 

# 设 置 窗口 的 delete_event 信 号 触发 delete_event 函 数 
self.window.connect("delete event", self.delete event) 

# 设 置 窗口 的 destroy 信 号 触发 destroy 函 数 
handler1 = self.window.connect("destroy",self.destroy) 
print "handler1 is:%d" % handler1 
self .window.set_title('PyGTK 测试 window') 
self .window.set_ default_size(200,200) 
self .window.set_ border_width(100) 

# 控 制 窗口 出 现 的 位 置 
self.window.set_ position(gtk.wIN_ POS_CENTER) 

# 生 成 按钮 实例 
self.button1i = gtk.Button( ) 
self.button2 = gtk.Button( ) 
self.buttoni.set_label('label1') 
self.button2.set_label('label2') 

# 设 置 按钮 的 cLicked 信 号 触发 heL1o 函 数 ， 并 传递 pyGTK'“ 字 符 串 参数 给 he11o 函 数 
handler2 = self.buttoni.connect("clicked", self.hello, "pyGTK") 
print "handler2 is:%d" % handler2 

# 设 置 按钮 的 clicked 信 号 触发 self. .window 对 象 的 gtk.Widget.destroy 方 法 
self.buttoni.connect object("clicked", gtk.Wwidget.destroy, self.window) 

# 取 消 handler2 的 功能 

# self.button.disconnect(handler2) 

# 设 置 一 个 不 可 见 的 横向 的 栏 位 self .box1 
self.box1 = gtk.HBox(gtk.FALSE, 0) 

# 把 Box1i 放 到 窗口 中 
self .window.add(self .box1) 

# 把 button1 部 件 放 到 box1 中 
self.box1i.pack_start(self.buttoni1, gtk.TRUE, gtk.TRUE,O) 
self.buttoni1. show() 

# 把 button2 部 件 放 到 button1 部 件 之 后 
self.box1i.pack_start(self.button2, gtk,TRUE,gtk,TRUE,0) 
self .button2. show() 
self .box1. show() 
self .window. show() 


def main(self): 
gtk.main() 


print name_ 

让 name == " main  ": 
base = base() 
base.main() 











有 关 PyGTK 的 详细 介绍 请 参考 我 整理 的 “PyGTK 学 习 笔 记 ”。 


Chapter 10. PyQt 


PyQt 是 一 套用 于 python 的 Qt 开发 库 ， 由 一 系列 的 模块 组 成 ， 有 qt, qtcanvas, qtgl, qtnetwork, 
qtsql, qttable, qtui and qtxml， 包 含有 300 个 类 和 超过 5750 个 的 函数 和 方法 。 


PyQt 还 支持 一 个 叫 qtext 的 模块 ， 它 包含 一 个 QScintilla 库 。 该 库 是 Scintillar 编 辑 器 类 的 Qt 接 
口 o 


10.1. 安装 


到 http://www.riverbankcomputing.co.uk/pyqt/download.php 下 载 最 新 的 版 本 。 安 装 PyQt 需 要 
先 安装 SIP， 到 以 这 里 下 载 。SIP 是 一 个 把 C\C++ 库 转换 成 Python 模块 的 工具 。 


。 安装 SIP 


% tar -zxvf sip-4.1.1.tar.gz 

% cd sip-4.1.1 

% python configure.py -1 qt # -1] qt 选项 指定 qt 版 本 
% make 

% make install 


% tar -zxvf PyQt-x1i1i-gpl-3.13.tar.gz 
% cd PyQt-x11-gpl-3.13 

% python configure.py 

% make 

% make install 


Chapter 11. PyMedia 


PyMedia 模 块 是 一 个 用 于 多 媒体 操作 的 python 模 块 。 它 提供 了 丰富 而 简单 的 接口 用 于 多 媒体 处 
理 (wav, mp3, ogg, avi, divx, dvd, cdda etc)。 可 在 Windows 和 Linux 平 台 下 使 用 。 


Chapter 12. Python-ldap 


Python-ldap 模 块 提供 一 组 面向 对 象 的 API|， 可 方便 地 在 python 中 访问 ldap 目 录 服 务 ， 它 基于 
OpenLDAP2.x° 


12.1. 示例 


#!/usr/bin/python 
#-*- Coding:utf-8 -*- 


import ldap 


try: 
conn = ldap.open("server_name" 
conn.protocol version = ldap.VERSION3 
username = "cn=admin,dc=company,dc=com" 
password = "123" 
conn.simple_bind(username, password) 


except ldap.LDAPError, e: 
print e 


baseDN = "dc=employees,dc=company, dc=com" 
SearchScope = ldap.SCOPE_ SUBTREE 


retrieveAttributes = None 
searchFilter = "cn=test" 


try: 


# 调 用 search 方 法 返回 结果 id 
result_set = [] 


。 以 下 示例 在 python-ldap 网 站 上 有 列 出 ， 这 里 作 一 下 简要 说 明 : 


# 设 置 源码 文件 编码 为 Utf-8 


#Server_name 为 1dap 服 务 器 名 
# 设 置 1dap 协 议 版 本 

# 用 户 名 

# 访 问 密码 

# 连 接 


# 捕 获 出 错 信息 
# 设 置 目录 的 搜索 路 径 起 点 
# 设 置 可 搜索 子路 径 


#None 表 示 搜 索 所 有 属性 ，['cn'] 表 示 只 搜索 cn 层 
# 设 置 过 滤 属 性 ， 这 里 只 显示 cn=test 的 信息 


ldap_result_id = conn.search(baseDN, searchScope, searchFilter,retrieveAttributes) 


while 1: 
result_type, result data = conn.result(ldap_result_id, 0) # 通 过 结果 id 返 回信 息 
If result_data == []: 
break 
else: 


if result_ type == ldap.RES_ SEARCH_ENTRY: 


result_set.append(result_data) 
print result_set[0][90][1i]['o'][0] 


except ldap.LDAPError, e: 
print e 


2 


#result_set 是 一 个 复合 列表 ， 需 通过 索引 返回 组 织 单 ; 





这 里 采用 的 是 非 同步 方 式 ， 同 步 方式 的 连接 和 搜索 命令 后 有 “ S" 后 级 ， 如 search s。 非 同 


步 方式 需 通过 一 个 结果 id 来 访问 目录 服务 信息 。 


e@ 下 面 是 一 个 修改 目录 信息 的 示例 : 


#!/usr/bin/python 
# -*- Coding:utf-8 -*- 
import ldap 


try: 
conn = ldap.open("server_name" 
conn.protocol version = ldap.VERSION3 
username = "cn=admin,dc=company, dc=com" 
password = "123" 
conn.simple_bind_s(username,password) 


except ldap.LDAPError, e: 
print e 


try: 


dn = "cn=test, dc=employees, dc=company, dc=com" 


conn.modify_s(dn,[(ldap.MOD_ ADD, 'mail','test@163.com' )]) 


except ldap.LDAPError, e: 
print e 


# 增 加 一 个 mail 属 性 


Ildap.MOD_ ADD 表示 增加 属性 ，ldap.MOD _ DELETE 表示 删除 属性 ， 
ldap.MOD_REPLACE 表 示 修 改 属性 。 


。 下 面 是 一 个 增加 目录 项 的 示例 : 


#!/UusSr/bin/python 
# -*- coding:utf-8 -*- 
import ldap,1ldap.modlist #1ldap .modlist 是 ldap 的 子 模块 ， 用 于 格式 化 目录 服务 的 


try: 
conn = ldap.open("server_name" 
conn.protocol version = ldap.VERSION3 
username = "cn=admin, dc=company, dc=com" 
password = "123" 
conn.simple_bind_s(username, password) 


except ldap.LDAPError, e: 


print e 
try: 
dn = "cn=test, dc=card, dc=company, dc=com" 
modlist = ldap.modlist.addModlist({ # 格 式 化 目录 项 ， 除 对 象 类 型 要 求 必 填 项 外 
DSS # 其 它 项 可 自由 增 减 
"objectClass': ['top', "person'， 'organizationalPerson', "inetorgPerson ' ]， 
'0': ['\xe5\xb9\xbf\xe5\xb7\x9e'], # 这 些 为 utf-8 编 码 的 中 文 
'street': ['\xe5\xb9\xbf\xe5\xb7\x9e'], 
'sn': ['tester'], 
'mail': ['test@163.com', "testQ@21cn.com']， 
'homePhone': ['xxxxxxxx'], 'uid': ['test'] }) 
# print modlist # 显 示 格 式 化 数据 项 ， 格 式 化 后 是 一 个 元 组 ; 


conn.add_s(dn,modlist) # 调 用 add_s 方 法 添加 目录 项 


except ldap.LDAPError, e: 
print e 


sn 


其 实 我 们 也 可 按 格 式 化 后 元 组 列表 的 形式 把 目录 项 直接 写 到 add_s() 里 ， 省 却 转 换 的 步 
又 。 





e。 下 面 是 一 个 删除 目录 项 的 示例 : 


#!/UuSr/bin/python 
# -*- coding:utf-8 -*- 
import ldap 


try: 
conn = ldap.open("server_name" 
conn.protocol version = ldap.VERSION3 
username = "cn=admin, dc=company, dc=com" 
password = "123" 
conn.simple_bind_s(username,password) 


except ldap.LDAPError, e: 
print e 


try: 
dn = "cn=sale, dc=company, dc=com" 
conn.delete_s(dn) 


except ldap.LDAPError, e: 
print e 


Chapter 13. ftplib -- FTP protocol client 


ftplib 模 块 定 义 了 FTP 类 和 一 些 方法 ， 用 以 进行 客户 端的 ftp 编 程 。 我 们 可 用 python 编 写 一 个 自 
已 的 ftp 客 户 端 程序 ， 用 于 下 载 文件 或 镜像 站 点 。 如 果 想 了 解 ftp 协议 的 详细 内 容 ， 请 参 
考 RFC959 。 


13.1. 示例 


该 模块 是 python 的 通用 模块 ， 所 以 默认 应 该 已 安装 。ftplib 模 块 使 用 很 简单 ， 暂 时 只 有 一 个 
FTP 类 和 十 几 个 函数 。 下 面 用 一 个 交互 方式 演示 一 下 ftplib 的 主要 功能 。 


>>> from ftplib import FTP 

>>> ftp=FTP('ftp.python.org') 

>>> ftp.1login() 

"230 Login successful.' 

>>> ftp.dir() 

drwxrwxr -x 7 1004 1004 512 Aug 13 01:35 pub 
>>> ftp.cwd('pub') 

"250 Directory successfully changed , 

>>> ftp.dir() 


drwxrwxr -x 5 1000 1004 1024 Dec 24 11:04 docs.python.org 

drwxrwsr-x 2 1002 1004 512 Oct 12 2001 jython 

LIrwx------ 1 0 1003 25 Aug 03 2001 python -> www.python.org/ftp/pyth 
drwxr -xr-x 9 1018 1004 512 Feb 02 03:44 pyvault 

drwxr -xr-x 2 1005 1004 512 May 06 2003 tmp 

drwxrwsr-x 59 1004 1004 3072 Feb 03 14:58 www.python.org 


>>> ftp.quit() 
"221 Goodbye 


一 


下 面 一 个 下 载 文件 的 示例 





#!/usr/bin/env python 

#author:Jims of www.ringkee.com 

#create date: 2005/02/05 

#description: Using ftplib module download a file from a ftp server. 
from ftplib import FTP 

ftp=FTP() 

ftp.set_debuglevel(2) # 打 开 调 试 级 别 2， 显 示 详 细 信 息 


ftp.connect('ftp_server', 'port')  # 连 接 
ftp.login('username', 'password')  # 登 录 ， 如 果 匿 名 登录 则 用 空 囊 代 替 即 可 


print ftp.getwelcome() # 显 示 ftp 服 务 器 欢迎 信息 

ftp.cwd('xxx/xxx/') # 选 择 操作 目录 

bufsize = 1024 # 设 置 缓冲 块 大 小 

filename= 'dog,jpg' 

file_handler = open(filename, 'wb').write # 以 写 模式 在 本 地 打开 文件 
ftp.retrbinary('RETR dog.jpg',file_handler,bufsize)  # 接 收服 务 器 上 文件 并 写 入 本 地 文件 
ftp.set_debuglevel(0) # 关 闭 调试 

ftp.quit() # 退 出 ftp 服 务 器 


下 面 一 个 上 传 文件 的 示例 ， 要 成 功 运行 该 脚本 ， 需 在 ftp 服 务 器 上 有 上 传 文件 的 权限 。 


#!/usr/bin/env python 

#author:Jims of www.ringkee.com 

#create date: 2005/02/05 

#description: Using ftplib module upload a file to a ftp server. 
from ftplib import FTP 

ftp=FTP() 

ftp.set_debuglevel(2) 

ftp.connect('ftp_server', 'port') 

ftp.login('username', 'password') 

print ftp.getwelcome() 

ftp.cwd('xxx/xxx/') 

bufsize = 1024 

filename='dog.jpg’ 

file_handler = open(filename,'rb') 

ftp.storbinary('STOR dog.jpg',file_handler,bufsize)  # 上 传 文件 
ftp.set_debuglevel(0) 


file_handler.close() # 关 闭 文件 
ftp.quit() 


是 不 是 很 简单 ， 其 它 功 能 可 查询 python 的 官方 网 站 ， 网 址 是 http://docs.python.org/lib/module- 
ftplib.html。 
Chapter 14. Psyco 


Psyco 是 一 个 Python 代码 加 速度 器 ， 可 使 Python 代码 的 执行 速度 提高 到 与 编译 语言 一 样 的 水 


14.1. 安装 


安装 Psyco 很 简单 ， 它 有 两 种 安装 方式 ， 一 种 是 源码 方式 ， 一 种 是 二 进 制 码 方式 : 


e 如 果 用 源码 方式 安装 ， 你 需 在 源码 的 目录 中 调用 python setup.py install 命 令 编译 生成 
psyco 子 目录 ， 再 把 该 子 目 录 整 个 拷贝 到 python 的 site-packages 目 录 下 。 


。 如 果 用 二 进 制 码 方式 安装 ， 按 这 个 网 址 列表 中 的 python 与 psyco 版 本 对 应 表 下 载 合适 的 二 
进 制 文件 ， 解 压 后 会 生成 一 个 psyco-1.x 的 目录 ， 把 该 目录 下 的 psyco 目 录 整 个 拷贝 到 
python 的 site-packages 目 录 下 即 可 。 


Chapter 15. smtplib 


15.1. 示例 


smtplib 模 块 以 发 送 电子 邮件 。 下 面 是 一 个 示例 ， 可 发 送 附件 。 


#!/UusSr/bin/python 
#-*- encoding:utf-8 -*- 


import smtplib,mimetypes 

from email import Encoders 

from email.MIMEBase import MIMEBase 

from email.MIMEText import MIMEText 

from email.MIMEMUultipart import MIMEMUultipart 


msg = MIMEMultipart() # 创 建 可 包含 附件 的 MIME 对 象 
msg['Subject'] = 'this is title' 

msg['From'] = "yjnet@21cn.com' 

msg['To'] = 'yjnet@21cn.com' 


txt = MIMEText(' 这 是 邮件 正文 的 中 文 测试 。',_charset='utf-8') 
msg.attach(txt) 


filename = 'jdk15.tar' # 附 件 名 
fp = open(filename,'rb') 
ctype,encoding = mimetypes.guess_type(filename) 
if ctype is None or encoding is not None: 

ctype = 'application/octet-stream' 
maintype, subtype = ctype.split('/',1) 
m = MIMEBase(maintype, subtype) 
m.set_payload(fp.read( )) 


fp.close() 

Encoders,encode_base64(m) # 把 附件 编码 
m.add_header('Ccontent-disposition'，'attachment ' ,filename=filename) # 修 改 邮 件 头 
msg.attach(m) # 添 加 附件 

s = smtplib.SMTP('smtp.21cn.com') # 连 接 邮 件 服务 器 
s.login('yjnet', '****!) # 登 录 邮 件 服务 器 
s.sendmail('yjnet@21icn.com', 'yjnet@21cn.com',msg.as_string()) # 发 送 邮 件 
S.Close() 


Chapter 16. XMPPPY 


Jabber 服 务 器 采用 开发 的 XMPP 协 议 ，Google Talk 也 是 采用 XMPP 协 议 的 IM 系 统 。 在 Python 


中 有 一 个 xmpppy 模 块 支持 该 协议 。 也 就 是 说 ， 我 们 可 以 通过 该 模块 与 Jabber 服 务 器 通信 
不 是 很 Cool 。 


16.1. 示例 


下 面 是 一 个 简单 的 示例 ， 可 使 大 家 对 该 模块 有 一 个 大 概 的 了 解 。 


， 是 


# 导 入 Xmpppy 模 块 

>>> Import xmpp 

# 建 立 CLient 实 例 ，debian 是 我 的 jabber 服 务 器 名 ，jabber 服 务 器 的 安装 可 参考 我 的 Debian 学 习 笔 记 。 
>>> c=xmpp .Client('debian',debug=[]) 

# 连 接 

>>> c.connect() 

"cp 

# 验 十 

>>> c.auth('yangjing', '12345') 

"01d_auth' 

# 登 入 

>>> C,SendInitPresence() 

# 向 ringkee@debian 

>>> c.send(xmpp.protocol.Message('ringkee@debian ','test message from yangjing')) 
0 

# 下 面 测试 信息 接收 功能 ， 如 果 没 有 信息 ， 则 pending_data( ) 为 空 

>>>c .TCPsocket .pending_datal() 


[] 

# 如 果 有 信息 ， 则 pending_data( ) 不 为 空 

>>> c.TCPsocket .pending_data() 

[<socket._socketobject object at Oxb795beb4>] 

# 接 收 信息 

>>> C,TCPSsocket .receive( ) 

"<message type='chat' to='yangjing@debian/xmpppy' from='ringkee@debian/Gaim'><x xmlns="'ja 
# 登 出 

>>> c.disconnect() 


.4 国 





16.2. cjkcodecs 


在 python2.4 版 以 前 ，python 不 能 处 理 cjk (中 国 ， 日 本 和 韩国 ) 的 编码 ， 所 以 就 有 了 
cjkcodecs 模 块 。 安 装 该 模块 后 Python 就 能 处 理 cjk 字 符 了 。 下 载 网 
址 : http://cjkpython.i18n.org/。 
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1. Sed 简 介 


sed 是 一 种 在 线 编辑 器 ， 它 一 次 处 理 一 行内 容 。 处 理 时 ， 把 当前 处 理 的 行 存 储 在 临时 缓冲 区 

中 ， 称 为 "模式 空间 ”(pattern space ) ， 接 着 用 sed 命 令 处 理 缓冲 区 中 的 内 容 ， 处 理 完成 后 ， 
把 缓冲 区 的 内 容 送 往 屏 幕 。 接 着 处 理 下 一 行 ， 这 样 不 断 重复 ， 直 到 文件 末尾 。 文 件 内 容 并 没 
有 改变 ， 除 非 你 使 用 重 定向 存储 输出 。Sed 主 要 用 来 自动 编辑 一 个 或 多 个 文件 ; 简化 对 文件 的 
反复 操作 ; 编写 转换 程序 等 。 以 下 介绍 的 是 Gnu 版 本 的 Sed 3.02。 


2. 定 址 

可 以 通过 定 址 来 定位 你 所 希望 编辑 的 行 ， 该 地 址 用 数字 构成 ， 用 喜 号 分 隔 的 两 个 行 数 表 示 以 
这 两 行为 起 止 的 行 的 范围 ( 包括 行 数 表示 的 那 两 行 ) 。 如 1，3 表 示 1，2，3 行 ， 美 元 符号 (9) 
表示 最 后 一 行 。 范 围 可 以 通过 数据 ， 正 则 表达 式 或 者 二 者 结合 的 方式 确定 。 


调用 sed 命 令 有 两 种 形式 : 
® sed [options] 'command' file(s) 
® sed [options] -f scriptfile file(s) 


a\ 

在 当前 行 后 面 加 入 一 行文 本 。 

b lable 

分 支 到 脚本 中 带 有 标记 的 地 方 ， 如 果 分 支 不 存在 则 分 支 到 脚本 的 末尾 。 
CN 

用 新 的 文本 改变 本 行 的 文本 。 

d 

从 模板 块 (Pattern space) 位 置 删 除 行 。 

D 

删除 模板 块 的 第 一 行 。 

i\ 

在 当前 行 上 面 插入 文本 。 

h 

找 贝 模板 块 的 内 容 到 内 存 中 的 缓冲 区 。 

H 

追加 模板 块 的 内 容 到 内 存 中 的 缓冲 区 

9 

获得 内 存 缓冲 区 的 内 容 ， 并 替代 当前 模板 块 中 的 文本 。 

G 

获得 内 存 缓冲 区 的 内 容 ， 并 追加 到 当前 模板 块 文本 的 后 面 。 
1 

列表 不 能 打印 字符 的 清单 。 

n 

读 取 下 一 个 输入 行 ， 用 下 一 个 命令 处 理 新 的 行 而 不 是 用 第 一 个 命令 。 
N 

追加 下 一 个 输入 行 到 模板 块 后 面 并 在 二 者 问 峰 入 一 个 新 行 ， 改 变 当前 行 号 码 。 
p 

打印 模板 块 的 行 。 

P (大 写 ) 

打印 模板 块 的 第 一 行 。 

9 


退出 Sed。 


r file 
从 file 中 读 行 。 
t label 


让 f 分 支 ， 从 最 后 一 行 开 始 ， 条 件 一 旦 满足 或 者 T，t 命 令 ， 将 导致 分 支 到 带 有 标号 的 命令 处 ， 或 者 到 脚本 的 末尾 。 


T label 
错误 分 支 ， 从 最 后 一 行 开 始 ， 一 旦 发 生 错误 或 者 T，t 命 令 ， 将 导致 分 支 到 带 有 标号 的 命令 处 ， 或 者 到 脚本 的 末尾 。 
w file 


写 并 追加 模板 块 到 file 末 尾 。 

W file 

写 并 追加 模板 块 的 第 一 行 到 file 末 尾 。 

! 

表示 后 面 的 命令 对 所 有 没有 被 选 定 的 行 发 生 作 用 。 
s/re/string 


用 String 替换 正则 表达 式 re。 


把 注释 扩展 到 下 一 个 换行 符 以 前 。 


以 下 的 是 替换 标记 


e g 表示 行内 全 面 替换 。 


。 p 表示 打印 行 。 

。 w 表示 把 行 写 入 一 个 文件 。 

。 x 表示 互 换 模板 块 中 的 文本 和 缓冲 区 中 的 文本 。 

。 y 表示 把 一 个 字符 翻译 为 另外 的 字符 (但 是 不 用 于 正则 表达 式 ) 
4. 选项 


-e command, --expression=command 


允许 多 台 编辑 。 


-h, --help 


打印 帮助 ， 并 显示 bug 列 表 的 地 址 。 
-Nn, --quiet, --silent 

取消 默认 输出 。 
-f, --filer=script-file 


引导 sed 脚 本 文件 名 。 


-V, --version 


打印 版 本 和 版 权 信 息 。 


5. 元 字符 集 


八 
锚 定 行 的 开始 如 : /AsedV 匹 配 所 有 以 sed 开 头 的 行 。 
$ 


锚 定 行 的 结束 如 : /sed$/ 匹 配 所 有 以 sed 结 尾 的 行 。 


匹配 一 个 非 换行 符 的 字符 如 : /s.d/ 匹 配 s 后 接 一 个 任意 字符 ， 然 后 是 d。 
匹配 零 或 多 个 字符 如 : /*sed/ 匹 配 所 有 模板 是 一 个 或 多 个 空格 后 紧 跟 sed 的 行 。 
[] 

匹配 一 个 指定 范围 内 的 字符 ， 如 /[Ss]ed/ 匹 配 sed 和 Sed 。 

[人 

匹配 一 个 不 在 指定 范围 内 的 字符 ， 如 : /[^A-RT-Z]ed/ 匹 配 不 包含 A-R 和 T-Z 的 一 个 字母 开头 ， 紧 跟 ed 的 行 。 
SN 

保存 匹配 的 字符 ， 如 Ss/\(love\)able/\1rs，loveable 被 蔡 换 成 lovers。 

& 

保存 搜索 字符 用 来 蔡 换 其 他 字符 ， 如 S/love/**&**/，l]OVE 这 成 **]OVeE**。 
\< 

锚 定 单词 的 开始 ， 如 :/N&1Lt;1Love/ 匹 配 包含 以 Love 开 头 的 单词 的 行 。 

\> 

锚 定 单词 的 结束 ， 如 /LoveN&gt; /匹配 包含 以 Love 结 尾 的 单词 的 行 。 

x\{m\} 

重复 字符 x ，m 次 ， 如 : /0\{5\}/ 匹 配 包含 5 个 0 的 行 。 

x\{m,\} 

重复 字符 x, 至 少 m 次 ， 如 : /0\{5, \}/ 匹 配 至 少 有 5 个 0 的 行 。 

x\{m,n\} 


重复 字符 Xx， 至 少 m 次 ， 不 多 于 nn 次， 如: /0o\{5,10\}/ 匹 配 5--10 个 0 的 行 。 


6. 实例 

删除 : d 命 令 
© $ sed '2d' example ----- 删除 example 文 件 的 第 二 行 。 
e $ sed '2,$d' example ----- 删除 example 文 件 的 第 二 行 到 末尾 所 有 行 。 
® $ sed '$d' example ----- 删除 example 文 件 的 最 后 一 行 。 


© 和 $ sed '/test/'d example ----- 删 除 example 文 件 所 有 包含 test 的 行 。 


替换 : Ss 命令 


$ sed 's/test/mytest/g' example ----- 在 整 行 范围 内 把 test 替 换 为 mytest。 如 果 没 有 g 标 
记 ， 则 只 有 每 行 第 一 个 匹配 的 test 被 替换 成 mytest 。 


$ sed -n 's/^test/mytest/p' example ----— (-n) 选 项 和 p 标 志 一 起 使 用 表示 只 打印 那些 发 生 
替换 的 行 。 也 就 是 说 ， 如 果 某 一 行 开头 的 test 被 替换 成 mytest， 就 打印 它 。 


$ sed 's/^192.168.0.1/&localhost/' example ----- & 符 号 表示 替换 换 字 符 串 中 被 找到 的 部 
份 。 所 有 以 192.168.0.1 开 头 的 行 都 会 被 蔡 换 成 它 自己 加 localhost， 变 成 
192.168.0.1localhost 。 


$ sed -n 's/\(love\)able/\irs/p' example ----- love 被 标记 为 1， 所 有 loveable 会 被 奉 换 成 
Ilovers， 而 且 替 换 的 行 会 被 打印 出 来 。 


$ sed 's#10#100#g' example ----- 不 论 什 么 字符 ， 紧 跟着 S 命 令 的 都 被 认为 是 新 的 分 隔 符 ， 
所 以 ，' 符 在 这 里 是 分 隔 符 ， 代 替 了 默认 的 %" 分 隔 符 。 表 示 把 所 有 10 替 换 成 100 。 


选 定 行 的 范围 : 去 号 


多 点 编辑 : e 命 令 


局 


$ sed -n '/test/,/check/p' example ----- 所 有 在 模板 test 和 check 所 确定 的 范围 内 的 行 都 
被 打印 。 


$ sed -n '5,/^test/p' example ----- 打印 从 第 五 行 开始 到 第 一 个 包含 以 test 开 始 的 行 之 间 
的 所 有 行 。 


$ sed '/test/,/check/s/$/sed test/' example ----- 对 于 模板 test 和 west 之 间 的 行 ， 每 行 的 
末尾 用 字符 串 sed test 替 换 。 


$ sed -e '1,5d' -e 's/test/check/' example ----- (-e) 选 项 允许 在 同一 行 里 执行 多 条 命 
令 。 如 例子 所 示 ， 第 一 条 命令 删除 1 至 5 行 ， 第 二 条 命令 用 Check 替换 test。 命 令 的 执行 顺 
序 对 结果 有 影响 。 如 果 两 个 命令 都 是 替换 命令 ， 那 么 第 一 个 替换 命令 将 影响 第 二 个 替换 
命令 的 结果 。 


$ sed --expression='s/test/check/' --expression='/love/d' example ----- 一 个 比 -e 更 好 的 
命令 是 --expression。 它 能 给 sed 表 达 式 赋值 。 


从 文件 读 入 : [命令 


$ sed '/test/r file' example ----- file 里 的 内 容 被 读 进来 ， 显 示 在 与 test 匹 配 的 行 后 面 ， 
如 果 匹 配 多 行 ， 则 file 的 内 容 将 显示 在 所 有 匹配 行 的 下 面 。 


写 入 文件 : W 命 令 


$ sed -n '/test/w file' example ----- 在 example 中 所 有 包含 test 的 行 都 被 写 入 file 里 。 


追加 命令 : a 命令 
© $ sed '/Atest/aNxN\---&gtithis is a example' example< ----- this is a example' 被 追加 到 以 
test 开 头 的 行 语 面 ，sed 要 求 命令 a 后 面 有 一 个 反 斜 杠 。 
插入 : i 命令 
$ sed '/test/i\\ 


new line 


ts ' example 


如 果 test 被 匹配 ， 则 把 反 针 杠 后 面 的 文本 插入 到 匹配 行 的 前 面 。 
下 一 个 : n 命 令 
© $ sed '/test/{ n; s/aa/bb/; }' example ----- 如 果 test 被 匹配 ， 则 移动 到 匹配 行 的 下 一 
行 ， 替 换 这 一 行 的 aa， 变 为 bb， 并 打印 该 行 ， 然 后 继续 。 
变形 : y 命 令 
©® $ sed '1,10y/abcde/ABCDE/' example ----- 把 1--10 行 内 所 有 abcde 转 变 为 大 写 ， 注 意 ， 正 则 
表达 式 元 字符 不 能 使 用 这 个 命令 。 
退出 : gq 命令 
© $$ sed '10q' example ----- 打印 完 第 10 行 后 ， 退 出 sed 。 
保持 和 获取 : h 命 令 和 G 命 令 
© $sed -e '/test/h' -e '$G example ----- 在 sed 处 理 文 件 的 时 候 ， 每 一 行 都 被 保存 在 一 个 
叫 模式 空间 的 临时 缓冲 区 中 ， 除 非 行 被 删除 或 者 输出 被 取消 ,否则 所 有 被 处 理 的 行 都 将 
打印 在 屏幕 上 。 接 着 模式 空间 被 清空 ， 并 存 入 新 的 一 行 等 待 处 理 。 在 这 个 例子 里 ， 匹 配 
test 的 行 被 找到 后 ， 将 存 入 模式 空间 ，h 命 令 将 其 复制 并 存 入 一 个 称 为 保持 缓存 区 的 特殊 
缓冲 区 内 。 第 二 条 语句 的 意思 是 ， 当 到 达 最 后 一 行 后 ，G 命 令 取出 保持 缓冲 区 的 行 ， 然 后 
把 它 放 回 模式 空间 中 ， 且 追加 到 现在 已 经 存在 于 模式 空间 中 的 行 的 末尾 。 在 这 个 例子 中 
就 是 追加 到 最 后 一 行 。 简单 来 说 ， 任 何 包含 test 的 行 都 被 复制 并 追加 到 该 文件 的 末尾 。 
保持 和 互 换 : h 命 令 和 X 命 令 
©® $sed -e '/test/h' -e '/check/x' example ----- 互 换 模式 空间 和 保持 缓冲 区 的 内 容 。 也 就 
是 把 包含 test 与 check 的 行 互 换 。 


7. 脚本 


Sed 脚 本 是 一 个 sed 的 命令 清单 ， 启 动 Sed 时 以 -f 选 项 引导 脚本 文件 名 。Sed 对 于 脚本 中 输入 的 
命令 非常 挑 别 ， 在 命令 的 末尾 不 能 有 任何 空白 或 文本 ， 如 果 在 一 行 中 有 多 个 命令 ， 要 用 分 号 
分 隔 。 以 # 开 头 的 行为 注释 行 ， 且 不 能 跨行 。 


8. 小 技巧 


。 在 sed 的 命令 行 中 引用 shell 变 量 时 要 使 用 双 引 号 ， 而 不 是 通常 所 用 的 单 引 号 。 下 面 是 一 个 
根据 name 变 量 的 内 容 来 删除 named.conf 文 件 中 zone 段 的 脚本 : 


name='zone\ "localhost"' 
sed "/$name/,/};/d" named.conf 
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1. 普通 模式 


在 shell 中 直接 打 vim filename 就 会 进入 普通 模式 。 在 这 个 状态 ， 我 们 可 以 通过 不 同 的 按键 对 文 
件 进 行 操作 和 切换 到 其 它 模式 。 ee 命令 模式 ， 按 ij，0，a 可 进入 编辑 模 。 


1.1. 编辑 

a 

进入 编辑 模式 。 

o 

在 当前 位 置 下 插入 一 空 行 ， 进 入 编辑 模式 ， 光 标 位 于 空 行 的 最 开头 。 


a 


光标 后 移 一 个 字符 ， 进 入 编辑 模式 。 

v 

这 入 可 视 模式 ， 可 用 高 亮 的 色 块 选择 内 容 。 
X or DEL 键 

删除 当前 字符 ， 删 除 内 容 保 存在 缓冲 区 。 
Xp 

左右 字符 互 换 。 

dd 

删除 当前 行 ， 删 除 内 容 保存 在 缓冲 区 。 
ddp 

上 下 两 行 的 内 容 互 换 。 

d$ 


删除 当前 光标 至 行 尾 的 所 有 内 容 。 


删除 从 当前 行 至 文件 未 尾 的 所 有 行 。 


Undo。 


进 地 visual 模 式 ， 移 动 光标 可 选择 文本 。 

y 

把 当前 行 复制 到 缓冲 区 中 。 

p 

把 缓冲 区 中 的 文本 插入 到 当前 位 置 。 

py 

把 当前 行 复制 到 a 缓 冲 区 。 可 用 26 个 字母 命名 多 个 缓冲 区 。 
oa 

把 a 缓 冲 区 中 的 文本 插入 当前 位 置 。 

J 


上 下 两 行 合并 成 一 行 。 


英文 句点 的 作用 是 重复 执行 上 次 执行 的 命令 ， 如 你 按 了 "ap 插入 a 缓 冲 区 的 内 容 ， 那 你 就 可 
按 "." 来 重复 这 个 操作 。 


1.2. 光标 移动 
h，j，k，1 


在 vim 中 ， 除 了 可 使 用 光标 键 在 移动 光标 外 ， 还 有 一 种 更 方便 的 光标 移动 方式 。 就 是 使 用 h， 
| 这 四 个 键 来 移动 光标 。h 控 制 光标 左 移 ，j 控 制 光标 下 移 ，k 控 制 光标 上 移 ，| 控 制 光标 右 
移 。 通 过 使 用 这 四 个 字母 键 就 可 使 我 们 的 手 不 用 移动 即 可 控制 光标 的 移动 。 刚 开始 使 用 可 能 
些 不 习惯 ， 但 熟练 使 用 后 你 会 发 觉 你 的 输入 速度 提高 不 少 ， 强 烈 建议 喜欢 vim 的 朋友 使 


光标 移动 到 行 尾 。 

G 

光标 移动 到 文档 末尾 。 

H,L 

H 控 制 光标 移动 到 当前 屏幕 头 ，L 控 制 光标 移动 到 当前 屏幕 尾 。 
全 

{ 控 制 光标 上 移 一 个 段落 ，} 控 制 光标 下 移 一 个 段落 


2. 编辑 模式 


退出 编辑 状态 。 


命令 模式 
在 普通 模式 上 按 ":" 就 可 进入 命令 模式 ， 在 左下 屏幕 我 们 输入 一 些 操作 指令 。 
:q! 
不 保存 退出 vim 。 
:w 
保存 文档 ， 但 不 退出 vim 。 


:XxX 


保存 退出 vim。 
:! command 

运行 shell 命 令 。 
:e filename 

编辑 /打开 一 个 文件 
:Ss/emacs/vim 

在 当前 行 中 把 第 一 个 emacs 替 换 成 vim 。 
:Ss/emacs/vim/g 

把 当前 行 中 所 有 的 emacs 替 换 成 Vim 。 
:%s/emacs/vim/g 

在 全 局 范围 内 把 emacs 替 换 成 vim 。 
:reg 

列 出 缓冲 区 内 容 。 
:set all 

列 出 所 有 参数 的 配置 情况 。 
:tabe 

新 建 一 个 标签 页 。 
:tabn or :tabp 

切换 到 下 一 个 上 一 个 标签 页 。 
:Close 

关闭 当前 标签 页 。 
:qa 


关闭 所 有 标签 页 退出 。 


4. vimrc 配 置 


在 命令 模式 下 用 set 命 令 设 置 的 东西 是 不 能 保存 的 ， 下 次 打开 vim 时 又 要 重新 设置 。 所 以 vim 提 
供 了 一 个 配置 文件 叫 vimrc， 可 以 保存 你 的 配置 信息 。 该 文件 在 Debian 系 统 中 位 于 /etc/vimy/ 目 
录 下 。 在 该 文件 中 ， 以 双 引 号 开头 的 是 注释 。 


© set autoindent 


自动 缩 排 ， 如 当前 行 是 从 第 3 个 字符 的 位 置 开 始 编辑 的 , 按 回 车 后 光标 会 自动 定位 在 下 一 行 
第 三 3 个 字符 的 位 置 。 

@ Set paste 
置 粘贴 模式 ， 这 样 粘贴 过 来 的 程序 代码 就 不 会 错位 了 。 


。 打开 文件 时 自动 回 到 上 次 编辑 位 置 。 


if has("autocmd") 
autocmd BufRead *.txt set tw=78 
autocmd BufReadPost * 
\ if line("'\"") &gt; © && line ("™'\"") &lt;= line("$") | 
\ exe "normal g'\"" | 
\ endif 
endif 
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Chapter 1. XML 简介 


XML(eXtensible Markup Language， 可 扩展 标记 语言 ) 是 SGML 的 一 个 子 集 ， 但 比 SGML 简 
单 ， 用 以 创建 可 相互 转换 的 结构 化 文本 文档 和 数据 文档 。 下 面 说 明 一 下 与 XML 相关 的 一 些 概 


念 。 
全 


。 SGML(Standard Generalized Markup Language， 标 准 通用 标记 语言 )， 由 于 IBM 公 司 的 
三 位 先驱 者 Charles GoldFarb、Edward Mosher 和 Raymond Lorie 创 立 ， 主 要 作为 大 型 文 
档 的 编制 工具 。DTD(Document Type Definition， 文 档 类 型 定义 ) 是 SGML 文 档 的 核心 ， 
它 定 义 了 SGML 文 档 必 须 遵 循 的 一 组 语法 规则 。 由 于 它 很 复杂 ， 所 以 只 是 在 一 些 大 公司 或 
大 项 目 中 使 用 。 直 到 HTML 面 世 ， 它 还 是 默默 无 闻 。 


。 HTML(Hypertext Markup Language， 超 文本 标记 语言 )， 它 是 在 SGML 框 架 中 通过 DTD 定 
义 的 标记 语言 ， 是 SGML 的 一 种 应 用 。 它 由 于 结构 简单 ， 容 易学 习 而 迅速 普及 ， 每 个 人 都 
能 很 快 地 建立 自己 的 页 面 ，HTML 造 就 了 现时 Internet 上 无 数 的 信息 资源 。HTML 标 记 只 描 
述 文档 的 外 观 ， 而 不 描述 文档 的 内 容 本 身 -- 里 面 有 什么 。 HTML 是 不 明白 网 页 内 容 的 ， 这 
样 就 造成 了 内 容 搜 索 的 差异 和 不 确定 性 。 另 一 个 问题 是 ，HTML 不 是 可 扩展 的 ， 这 意味 着 
没有 一 种 方便 的 途径 来 扩展 标记 。 每 一 个 新 标记 的 引入 都 会 造成 系统 的 不 一 致 性 和 对 标 
准 的 修订 。 这 就 是 为 什么 现在 我 们 用 不 同 的 浏览 器 浏览 同一 个 网 站 时 表现 效果 会 有 差 
异 。 


。 XHTML(eXtensible Hypertext Markup Language， 可 扩展 超 文本 标记 语言 )， 它 是 按 XML 
规则 编写 的 HTML， 由 于 有 统一 的 规则 约束 ， 所 以 它 不 会 出 现 如 HTML 一 样 的 不 规范 、 不 
一 致 性 问题 。 


。 XML(eXtensible Markup Language， 可 扩展 标记 语言 )， 继承 了 SGML 的 优点 ， 但 又 没有 
了 SGML 的 复杂 性 。XML 专 门 为 WEB 应 用 而 设计 ， 和 HTML 不 同 ， 它 是 一 种 元 标记 语言 
(meta-markup language)， 也 就 是 说 它 没 有 一 套 能 够 适用 于 各 个 领域 中 所 有 用 户 的 固守 
的 标签 和 元 素 ， 相 反 ， 它 允许 开发 者 根据 自己 的 需要 定义 自己 的 元 素 ，XML 中 的 
X(eXtensible) 就 是 说 明了 这 一 点 。 它 的 特点 有 : 


o XML 使 用 Unicode 字 符 集 ， 可 生成 英文 、 中 文 、 和 希腊 文 或 楚 文 等 多 种 语言 。 
o 可 将 多 个 来 源 (包括 其 他 XML 文档 和 二 进 制 文件 ) 汇 合 进 一 个 XML 文档 。 


o 可 利用 DTD 或 Schema( 模 式 ) 管理 一 致 性 问题 。DTD 主 要 用 于 文档 型 文档 ，Schema 
主要 用 数据 型 文档 。 


o 具有 很 好 的 扩展 性 ， 可 定义 自己 的 元 素 和 属性 。 
o 通过 XML 可 从 关系 数据 库 管 理 系统 中 提取 数据 到 结构 化 文档 。 它 还 被 设计 成 可 对 各 


种 数据 对 象 进 行 操 作 。 


o 在 一 个 设计 良好 的 XML 应 用 中 ，XML 标 记 不 涉及 文档 如 何 显示 ， 只 表示 文档 的 结 
构 。 


XML 被 设计 用 来 存储 、 支 持 和 交换 数据 ， 而 不 是 用 米 显 示 数 据 的 。 通 常 ，XMIL 被 用 
于 数据 交换 ， 而 不 是 数据 存储 。 


。 元 数据 ， 定 义 数据 的 数据 。 
。 标记 语言 是 一 种 定义 文档 的 格式 语言 。SGML、XML、XHML 、HTML 都 属 标记 语言 。 


XML 文档 是 什么 ? 它 有 时 是 一 个 文件 ， 有 时 是 关系 数据 库 中 的 一 条 记录 ， 有 时 是 由 Object 
Request Broker( 对 象 请求 代 理 程序 ) 传 送 的 一 个 对 象 ， 有 时 是 到 达 网 络 接口 的 一 个 字 节 流 。 
XML 文 档 可 使 不 同系 统 、 不 同 平台 的 数据 实现 统一 接口 ， 这 就 是 XML 申 正 的 威力 所 在 。 下 面 
列举 几 个 使 用 XML 的 领域 : 

。 文档 设计 和 管理 ， 可 利用 XML 维护 公司 的 文档 资料 。 


e Web 开 发 ， 利 用 XHTML 和 XSLT 实 现 的 Web 页 面 扩 展 性 更 好 ， 更 容易 维护 。 


数据 库 应 用 和 程序 开发 ， 可 从 数据 库 中 提取 数据 并 生成 XML 文档 ， 实 现 信息 的 跨 平台 、 
跨 系 统 沟 通 。 


e@ 定义 其 它 语言 ，WML 和 WAP 就 是 用 通过 XML 建立 的 。 
XML 不 是 什么 ? 


。 XML 只 是 一 种 标记 语言 ， 不 是 一 种 编程 语言 。 不 存在 一 种 编译 器 ， 把 XML 文档 转化 成 可 
执行 二 进 制 代码 。 


e XML 不 是 一 种 网 络 传输 协议 ， 但 通过 网 络 协议 传输 的 数据 格式 则 可 以 是 XML 格式 的 。 
e XML 不 是 数据 库 ， 不 能 替代 Oracle 或 MySQL 这 类 的 关系 数据 库 管 理 系统 。 
Chapter 2. XML 语法 


创建 一 个 简单 的 index.xml 文 档 : 


< Xml version="1.0" > 
< xml-stylesheet type="text/xsl" href="basic.xsl" > 
<basic>Hello World</basic> 


下 面 创建 一 个 名 为 basic.xsl 的 XML 样 式 表 (XSL)， 以 便 在 浏览 器 中 显示 XML 文 档 内 容 : 


< Xml version="1.0" > 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.0org/1999/XsSL/Transform"> 
<xsl:template match="/"> 
<html> 
<head> 
<title>a basic stylesheet</title> 
</head> 
<body> 
<xsl:value-of select="/" /> 
</body> 
</html> 
</xsl:template> 
</xsl:stylesheet> 


接着 在 浏览 器 中 打开 index.xml 文 档 ， 则 可 显示 “Hello World”。 上 面 两 个 文档 都 是 合法 的 XML 
文件 ， 具 体 的 语法 规则 下 面 会 详细 介绍 ， 上 例 可 先 给 大 家 一 个 感性 的 认识 。 


合法 的 XML 文 档 可 有 种 意思 ， 一 个 是 良 构 文档 (well-format)， 即 符合 XML 规 则 书写 的 文档 ; 另 
一 种 是 有 效 文档 ， 是 已 验证 符合 a 文档 。 


基本 语法 规则 


。 XML 是 区 分 大 小 写 的 ; 


所 有 元 素 的 起 始 和 结束 标注 必须 成 对 出 现 ， 且 要 正确 苑 套 ; 


如 果 使 XML 说 明 ， 则 它 必 须 是 XML 文档 的 第 一 行 : 


< xml version="1.0" > 


e 元 素 属 性 必须 用 引号 引起 来 ， 单 、 双 引号 都 可 以 ， 但 必须 成 对 出 现 。 如 : 


<basic attr="1.0"> 
<basic attr='1.0'> 


XML 命名 规则 : 


o。 XML 名 以 下 划 线 或 字母 开始 ; 
o XML 名 可 包含 字母 、 数 字 、 句 点、 下划线 和 冒号 ; 
o XML 名 不 能 包含 空格 ; 


o XML 名 不 能 以 数字 开始 ， 但 可 包含 数字 ; 


o XML 名 区 分 大 小 写 。 


。 保留 标记 字符 ， 如 果 要 在 XML 中 显示 < 或 & 之 类 的 标记 ， 就 要 使 用 字符 的 实体 形式 ，XML 
中 有 五 种 预先 定义 了 的 实体 : 


&lt 表示 &1t ;字符 
&gt; 表示 &gt ;字符 
&amp 表示 & 字 符 
&apos; 表示 ' 字 符 
&quot; 表示 "字符 


我 们 也 可 用 ENTITY 自 定义 实体 : 


<!ENTITY linux "linux is a very good System'"> 
这 样 我 们 可 用 &1inux; 来 调用 。 


e XML 文档 内 容 中 的 空格 是 有 意义 的 ， 在 转换 后 会 保留 。 


。 空 元 素 以 < 开始 并 以 /> 结束 ， 如 <br/>。 


2.2. 良 构 XML 文 档 和 有 效 XML 文 档 


符合 XML 语 法 规则 的 XML 文 档 称 为 良 构 文档 ， 这 些 规则 如 下 : 


e。 应 当 只 有 一 个 父 标 志 ， 由 父 标志 派生 所 有 其 它 子 标志 ， 在 一 个 文档 中 不 能 存在 多 个 父 标 
二 


e。 赂 套 元 素 应 按 正 确 的 顺序 开始 和 结束 。 
e 子 标志 应 在 父 标志 完成 前 关闭 。 
e@ 属性 值 应 放 在 双 引 号 中 。 


通过 某 个 DTD 或 Schema 验证 的 文档 称 为 有 效 XML 文 档 。 


2.3. XML 文档 的 组 成 


e。 XML 声明 : 
o _ version， 定义 XML 规范 的 版 本 号 ， 到 现在 为 止 ， 只 有 一 个 版 本 号 1.0 。 
o encoding， 指 定 文档 的 编码 系统 。 


o standalone， 定 义 文档 是 独立 的 还 是 需要 装 入 其 他 元 素 才能 正确 分 析 。 如 果 XML 文 
档 没 有 外 部 实体 或 DTD， 则 可 以 设置 为 nO， 否则 设置 为 yes。 可 用 该 值 提 高 性 能 : 如 
果 为 no， 则 可 提高 处 理 速度 ; 如 果 设 置 为 yes， 则 首先 要 分 析 文 档 ， 确 定 需要 其 他 哪 
些 文件 ， 然 后 才能 完全 分 析 文 档 。 


e 根 元 素 ， 每 篇 XML 文档 都 需要 有 且 只 能 有 一 个 根 元 素 。 由 元 素 是 文档 的 第 一 个 元 素 ， 
含 其 它 所 有 元 素 。 下 例 的 portal 就 是 根 元 素 ， 如 : 


<portal> 

<name>jims</name> 

<email></email> 

</portal> 

e@ 属性 ， 每 个 元 素 都 可 以 设置 一 个 或 多 个 属性 ， 如 : 
<portal> 
<name id='1',sex="male">Jims</name> 

</portal> 


元 素 和 属性 都 可 以 表示 信息 ， 什 么 时 候 使 用 元 素 ， 什 么 时 候 使 用 属性 呢 ? 属性 信息 表现 
能 力 有 限 ， 它 只 能 表示 字符 串 。 所 以 当 需 灵活 表示 信息 时 应 该 使 用 元 素 。 一 般 把 信息 主 
体 放 到 元 素 中 ， 属 性 只 放 一 些 注 释 或 额外 的 信息 。 


。 CDATA 部 份 ， 它 用 <![CDATA[ 和 ]]> 表 示 ， 它 们 之 间 的 数据 作为 原始 字符 显示 ， 唯 一 不 能 
出 现 的 标 志 是 ]]> 8 


e@ 注释 ， 注 释 是 很 重要 ， 不 论 是 在 编写 程序 和 文档 时 ， 所 以 XML 也 提供 了 注释 功能 ， 以 <!-- 
开头 --> 结 尾 的 一 对 区 间 为 注释 。 在 以 --> 结 束 之 前 ， 不 能 出 现 “--” 号 ，“---” 更 不 允许 。 


e 处 理 指令 ， 处 理 指令 以 < 开头 以 > 结尾 。 如 PHP 处 理 指令 可 写成 ，< php ... >。 处 理 指令 
是 标记 ， 而 不 是 元 素 。 因 此 ， 与 注释 一 样 ， 处 理 指令 可 出 现在 XML 文档 的 标签 外 的 任何 
位 置 ， 包 括 根 元 素 之 前 或 之 后 。 最 常见 的 处 理 指令 是 ，xml-stylesheet 样 式 表 指 令 ， 它 会 
告诉 浏览 器 在 显示 文档 时 应 用 什么 样式 表 。 如 : 


< xml-stylesheet href="sample.css" type="text/css" > 
<portal> 
<name>.. .</name> 


</portal> 
2.4. XML 文 档 树 
XML 文 档 是 一 种 结构 化 的 文档 ， 可 用 树 的 形式 表示 出 来 。 树 是 一 种 由 节点 和 分 支 组 成 的 简单 
结构 ， 两 个 节点 间 由 分 支 连 接 。 上 端的 节点 称 为 父 节 点 ， 下 端的 节点 称 为 子 节点 。 一 个 节点 


如 果 没 有 父 节点 ， 则 称 为 树 的 根 节点 ( 根 )， 每 个 树 必 须 有 且 只 能 有 一 个 根 节点 。 一 个 节点 如 果 
没有 子 节点 ， 则 称 为 树 的 叶 节 点 。 只 有 一 个 节点 的 树 也 是 允许 的 。 


Chapter 3. DTD 


由 于 XML 可 自 定 义 标 签 ， 所 以 每 个 人 定义 的 标签 集 都 会 不 同 ， 如果 没有 一 套 标准 来 规定 标签 
的 定义 原则 ， 则 应 用 程序 就 不 能 对 XML 文档 进行 处 理 。 解 决 该 问题 的 方案 采用 DTD ， 
DTD(Document Type Definition， 文 档 类 型 定义 )， 用 于 定义 XML 文档 的 编写 规则 。 如 哪些 元 
素 可 出 现在 文档 中 ， 及 元 素 的 内 容 和 属性 的 要 求 等 。 应 用 程序 会 利用 这 个 DTD 对 文档 进行 检 
验 ， 符 合 DTD 约 束 规则 的 XML 文 档 称 之 为 有 效 文档 ， 可 以 进行 下 一 步 处 理 ， 否 则 会 报错 ， 应 
用 程序 可 捕获 该 错误 进行 相应 的 异常 处 理 。 检 验 过 程 是 可 选 ， 这 要 视 具 体 应 用 而 定 。 


3.1. 文档 类 型 声明 
要 使 用 DTD 进 行 有 效 性 检验 ， 就 要 使 用 文档 类 型 定义 声明 指定 DTD。 如 : 


< xml version="1.0" standalone="no" > 
<!DOCTYPE portal SYSTEM "http://www.w3c.com/dtd/portal.dtd"> 
<portal> 
<name>Jims</name> 
<email>Jims@163.com</email> 
<email>Jims@21cn.com</email> 
</portal> 


文档 类 型 声明 位 于 XML 声明 之 后 ， 根 元 素 之 前 。 如 果 dtd 文 档 位 于 本 机 ， 可 用 路 径 名 直接 指出 
dtd 文 档 的 位 置 。portal.dtd 的 内 容 如 下 : 


<!IELEMENT portal (name,email*)> 
<!IELEMENT name (#PCDATA)> 
<!IELEMENT email] (#PCDATA)> 


上 面 的 内 容 也 可 直接 写 到 XML 文档 内 ， 这 种 dtd 声 明 方 式 叫 内 部 dtd 子 集 ， 如 : 


< xml version="1.0" standalone="no" > 
<!IDOCTYPE portal [ 
<!IELEMENT portal (name,email*)> 
<!IELEMENT name (#PCDATA)> 
<!IELEMENT email] (#PCDATA)> 
]> 
<portal> 
<name>Jims</name> 
<email>Jims@163.com</email> 
<email>Jims@21cn.com</email> 
</portal> 


如 果 dtd 位 于 XML 文档 外 ， 则 叫 外 部 dtd 子 集 。 我 们 可 以 结合 内 外 dtd， 共 同 组 成 一 个 dtd 来 为 
XML 文档 作 验 证 。 如 : 


<!DOCTYPE portal SYSTEM "external.dtd" [ 
<!IELEMENT portal (name,email*)> 
<!IELEMENT name (#PCDATA)> 

<!IELEMENT email] (#PCDATA)> 


]> 


注意 ， 使 用 内 外 dtd 时 ， 这 两 个 dtd 要 互相 兼容 ， 不 能 有 冲突 。 


3.2. 元 素 声 明 
上 节 文 档 类 型 声明 中 的 每 一 项 都 是 元 素 声 明 ， 定 义 了 每 个 元 素 的 约束 。 元 素 声 明 的 格式 为 : 


<!IELEMENT element_name (content_ model)> 


有 效 文档 中 使 用 的 每 个 元 素 都 必须 在 文档 的 DTD 中 用 元 素 声 明 进 行 声明 。element_name 可 是 
任何 合法 的 XML 名 称 ，content_model( 内 容 模型 ) 指 定 元 素 可 以 或 必须 包含 的 子 元 素 以 及 子 元 
素 的 顺序 。 下 面具 体 介绍 内 容 模型 的 内 容 。 


. PCDATA， 规 定 元 素 只 包含 已 析 的 字符 数据 。 下 
面 声 明 指 出 一 个 name 元 素 可 以 包含 文本 ， 但 不 
能 划分 为 独立 的 area_code、number 和 
extension 元 素 : 


<!ELEMENT name (#PCDATA)> 


e 子 元 素 ， 可 指明 元 素 的 子 元 素 。 下 面 声明 表示 name 元 素 必须 包含 且 只 包含 一 个 desc 元 


<!IELEMENT name (desc)> 


也 可 用 过 号 为 分 隔 符 ， 指 明 多 个 子 元 素 。 并 且 子 元 素 出 现 的 次 序 必 须 按 定义 时 的 顺序 。 
如 : 


<!IELEMENT name (id,desc)> 


name 元 素 的 id 子 元 素 必 须 在 desc 子 元 素 前 面 ， 否 则 验证 会 出 错 ， 该 文档 不 是 一 个 有 效 的 
XML 文档 。 


下 面 这 个 文档 是 有 效 的 
<name> 
<id>1</id> 
<desc>dtd test</desc> 
</name> 
下 面 这 个 文档 是 无 效 的 ， 顺 序 颠 倒 了 
<name> 
<desc>dtd test</desc> 
<id>1</id> 
</name> 
下 面 的 文档 也 是 无 效 的 ， 有 多 余 的 元 素 
<name> 
<id>1</id> 
<desc>dtd test</desc> 
<date>2005/01/31</date> 
</name> 


e。 子 元 素 的 个 数 ， 我 们 可 通过 正则 表达 式 来 规定 子 元 素 的 个 数 。 


o ， 人 允许 零 个 或 一 个 该 元 素 


下 面 我 们 可 利用 这 些 符号 规定 id 子 元 素 必 须 出 现 ， 且 只 能 出 现 一 次 ， 而 desc 子 元 素 可 选 。 


<!IELEMENT name (Id，desc* )> 


根据 上 面 的 声明 ， 下 面 的 name 元 素 都 是 有 效 的 。 


<name> 
<id>1</id> 
<desc>dtd test</desc> 
</name> 
<name> 
<id>2</id> 
</name> 
<name> 
<id>3</id> 
<desc>dtd test</desc> 
<desc>another test</desc> 
</name> 


。 可 选项 (|)， 选 项 是 一 个 参数 列表 ， 每 个 参数 间 用 "分隔 ， 代 表 能 且 只 能 选 一 个 子 元 素 。 


<!ELEMENT choice (good | bad)> 


上 例 的 choice 元 素 可 选 一 个 good 子 元 素 ， 或 bad 子 元 素 ， 且 只 能 从 选 一 个 。 可 选 的 参数 列 
可 以 多 项 ， 不 限于 两 项 。 如 : 


<!ELEMENT choice (one | two | three | four)> 


e 小 括号 ， 可 用 小 括号 把 选项 括 起 来 ， 以 表达 更 丰富 的 意思 ， 如 我 们 想 表 示 choice 元 素 必 须 
包含 一 个 good 子 元 素 ， 并 且 必 须 包 含 ok 子 元 素 或 bad 子 元 素 的 一 个 。 


<!IELEMENT choice (good，(oklbad ) )> 


e 混合 内 容 ， 在 一 些 文档 中 ， 一 个 元 素 可 能 既 包 含 子 元 素 ， 也 包含 字符 串 ， 这 些 内 容 叫 混 
合 内 容 。 可 用 以 下 方式 表示 : 


<!EMEMENT description (#PCDATA | term)* )> 


该 声明 表示 description 元 素 可 包含 已 析 的 字符 串 和 term 子 元 素 ， 且 人 允许 出 现 零 次 或 多 次 ， 
如 : 


<description> 
this is a <term>dtd</term> test. 
</description> 


PCDATA 必 须 在 第 一 位 ， 可 选 的 子 元 素 可 任意 多 


。 空 元 素 ， 某 些 元 素 不 用 包含 任何 内 容 ， 称 之 为 空 元 素 。 写 成 以 /> 结束 的 独立 标签 。 
<!ELEMENT image EMPTY> 


示例 : 


<image src="http://www.xml.com/dtd.jpg" /> 


e ANY， 人 允许 元 素 内 包含 任意 内 容 。 该 选项 在 dtd 测 试 时 很 有 用 ， 在 生产 系统 中 尽量 不 要 使 
用 o 


<!ELEMENT page ANY> 


3.3. 属性 声明 


一 个 有 效 的 XML 文 档 ， 必 须 对 元 素 的 属性 进行 声明 。 使 用 ATTLIST 声 明 来 完成 ， 一 个 ATTLIST 
可 以 为 一 个 元 素 类 型 声明 多 个 属性 。 


<!ATTLIST image Src CDATA #REQUIRED> 


上 例 声明 image 元 素 必 须 有 一 个 src 属 性 ， 该 属性 的 值 是 字符 数据 。 可 用 ATTLIST 声 明 为 一 个 
元 素 声明 多 个 属性 ， 如 : 


<!ATTLIST image src CDATA #REQUIRED 
width CDATA #REQUIRED 
height CDATA #REQUIRED 
alt CDATA #IMPLIED 


上 述 声 明 指 出 src、width、height 属 性 是 必须 的 ，alt 属 性 是 可 选 的 。 


3.3.1. 属性 类 型 


。 CDATA 类 型 属性 值 可 包含 任意 文本 字符 串 。DTD 不 能 指定 属性 为 一 个 整数 或 一 个 日 期 ， 
Schema 能 提供 更 为 强大 的 数据 类 型 。 


。 NMTOKEN 类 型 属性 值 是 一 个 XML 名 称 记号 。XML 名 称 记号 与 XML 名 称 类 似 ， 但 XML 名 
称 记号 允许 所 有 的 字符 作为 名 称 的 开始 字符 ， 而 XML 名 称 的 第 一 个 字母 必须 是 字母 、 表 
意 字 符 和 下 划 线 。 因 此 10，.bashrc 是 合法 的 XML 名 称 标记 ， 但 不 是 合法 的 XML 名 称 。 每 
个 XML 名 称 都 是 一 个 XML 名 称 标记 ， 然 而 XML 名 称 标记 不 全 是 XML 名 称 。 如 果 属 性 包含 
1990，2005 之 类 的 整数 ， 则 应 该 指定 其 类 型 为 NMTOKEN。 如 : 


<!ELEMENT person birthday NMTOKEN #REQUIRED> 


e NMTOKENS 类 型 属性 包含 一 个 或 多 个 用 空白 分 隔 的 XML 名 称 记 号 。 如 : 


<person dates="02-01-2005 03-01-2005 05-01-2005">person</person> 


对 应 的 声明 应 为 : 


<!ATTLIST person dates NMTOKENS #REQUIRED> 


另 一 方面 ， 对 01/02/2005 这 样 的 形式 不 能 使 用 该 声明 ， 因 为 其 中 的 正 儿 杠 不 是 合法 的 名 


Ar A 


称 尝 和 从 。 

。 枚 举 声 明 ， 枚 举 不 用 关键 字 。 直 接 列举 所 有 的 值 ， 中间 用 坚 线 分 隔 。 如 : 
<!ATTLIST date month(January | February | March | April | May | June | July | August 
轩 于 == 


针对 上 述 声明 ，date 元 素 的 month 属 性 可 选 十 二 个 月 份 的 中 一 个 。 





。 ID 类 型 的 属性 必须 包含 一 个 XML 名 称 ， 而 且 该 名 称 在 文档 中 是 独一无二 的 。|D 属 性 可 为 
元 素 分 配 一 个 唯一 的 标识 符 。 


<!ATTLIST name card_ id ID #REQUIRED> 


由 于 数字 不 是 合法 的 XML 名 称 ， 所 以 ID 编号 不 能 以 数字 开头 ， 解 决 办 法 是 在 前 面 加 下 划 
线 或 字母 。 


IDREF 类 型 的 属性 指向 文档 中 某 元 素 的 ID 类 型 的 属性 。 因 此 ， 它 必须 是 一 个 XML 名 称 ， 
它 的 作用 是 当 简 单 的 包含 关系 不 能 满足 要 求 时 在 元 素 间 建立 多 对 多 关系 。 如 : 


<project project_id="p1"> 
<goal>deploy linux</goal> 
<team member person_card_id="c123"> 
</project> 
<person card_id="c123"> 
<name>linuxsir</name> 
<assignment project_project_id="p1"> 
</person> 


project 元 素 的 project_id 属 性 和 person 元 素 的 card_id 属 性 应 该 是 上 D 类 型 。team_member 
元 素 的 person_card id 属性 和 assignment 元 素 的 project_project id 属性 是 IDREF 类 型 。 对 
应 的 声明 如 下 : 


<!ATTLIST person card_id ID #REQUIRED> 
<!ATTLIST project project_id ID #REQUIRED> 
<!ATTLIST team member person_card_id IDREF #REQUIRED> 
<!ATTLIST assignment project_project_id IDREF #REQUIRED> 


IDREFS 类 型 的 属性 包含 一 个 XML 名 称 列表 。 名 称 间 用 空白 间隔 ， 且 每 个 名 称 都 是 文档 中 
某 个 元 素 的 ID。 当 某 个 元 素 需 要 引用 多 个 其 他 元 素 时 使 用 该 元 素 。 如 : 


<!ATTLIST person card_id ID #REQUIRED 
assignment IDREFS #REQUIRED> 

<!ATTLIST project project_id ID #REQUIRED 
team IDREFS #REQUIRED> 


对 应 的 文档 可 写成 : 


<project project_id="p1"” team="c1i23"> 
<gold>deploy linux</gold> 

</project> 

<person card_id="c123" assignment="p1"> 
<name>Linuxsir</name> 

</person> 


ENTITY 类 型 的 属性 包含 在 DTD 的 其 它 位 置 声明 的 未 析 实 体 的 名 称 中 。 如 movie 元 素 可 能 
有 一 个 标识 激活 时 播放 mpeg 或 rm 文件 的 实体 属性 : 


<!ATTLIST movie Src ENTITY #REQUIRED> 


如 果 DTD 声 明了 一 个 名 为 play 的 未 析 实 体 ， 则 此 movie 元 素 可 用 于 在 XML 文档 中 具 入 视频 
文件 : 


<movie src="play" /> 


。 ENTITIES 类 型 的 属性 包含 在 DTD 的 其 声明 的 多 个 未 析 实 体 名 称 ， 其 间 用 空白 隔 
开 。 


<!ATTLIST Slide_show slides ENTITIES #REQUIRED> 


如 果 DTD 声 明了 未 析 实 体 slide1、slide2、slide3、...， 则 可 使 用 slide_show 元 素 在 XML 文 
档 中 襄 入 幻灯 片 。 


<slide_ show slides="slide1 slide2 slide3" /> 


。 NOTATION 类 型 的 属性 包含 在 文档 的 DTD 中 声明 的 茶 个 记 法 的 名 称 。 该 属性 类 型 较 少 
用 。 理 论 上 ， 可 以 使 用 该 属性 使 菜 些 特殊 元 素 与 类 型 相关 联 ， 下 例 声 明 为 不 同 的 图 像 类 
型 定义 了 4 个 记 法 ， 然 后 规定 每 个 image 元 素 都 必须 从 中 选择 一 种 type 属 性 。 


<!INOTATION gif SYSTEM "image/gif"> 

<!INOTATION tiff SYSTEM "image/tiff"> 

<!NOTATION jpeg SYSTEM "image/jpeg"> 

<!INOTATION png SYSTEM "image/png"> 

<!ATTLIST image type NOTATION (gif | tiff | jpeg | png) #REQUIRED> 


每 个 image 元 素 的 type 属 性 的 值 可 以 为 gif tif，jpeg 和 png 四 个 值 中 的 一 个 。 该 属性 比 枚 
举 类 型 稍 具 优 势 ， 因 为 记 法 的 实际 MIME 媒 体 类 型 在 理论 上 是 可 用 的 。 由 于 斜 杠 在 XML 名 
称 中 不 是 一 个 合法 字符 ， 所 以 枚 举 类 型 不 能 指定 image/png 或 image/jpeg 作 为 允许 值 。 
3.3.2. 属性 缺 省 值 
每 个 ATTLIST 声 明 除 了 要 提供 一 种 数据 类 型 外 ， 还 要 声明 属性 的 缺 省 行为 。 
。|IMPLIED ， 属 ' 性 可 选 。 
\、 
.REQUIRED ， 属 性 必须 有 。 


。FIXED ， 属 性 是 第 量 ， 不 能 更 改 。 


<!ATTLIST person name CDATA #FIXED "linuxsir" 


。 Literal， 作 为 一 个 引用 字符 串 的 实际 缺 省 值 。 


<!ATTLIST person name NMTOKEN "linuxsir" 


如 果 没 有 显示 指明 person 元 素 的 name 属 性 ， 则 该 值 为 linuxsir。 


3.4. 实体 
。 用 ENTITY 声 明定 义 实体 。 如 : 


<!ENTITY linux "linux is a very good System"> 
用 &linux; 可 引用 该 字符 串 


。 可 定义 一 个 外 部 实体 ， 引 用 外 部 XML 文 档 


<!IENTITY linux SYSTEM "/home/linux/test.xml"> 
使 用 &linux; 可 引用 /home/1linux/test.xml 文 档 


外 部 实体 没有 XML 声 明 ， 但 可 以 有 文本 声明 ， 两 者 很 类 似 ， 主 要 区 别 是 文本 声明 必须 有 
编码 声明 ， 而 版 本 信息 则 是 可 选 的 。 


< xml version="1.0" encoding="gb2312" > 让 二 个 合法 的 交 术 吉明 
< xml encoding="gb2312" > 也 是 一 个 合法 的 文本 声明 


e 不 是 所 有 的 数据 都 是 XML。 如 jpeg 照 片 ，mpeg 电 影 等 。XML 建 议 使 用 外 部 未 析 实 体 作为 
在 文档 中 郁 入 这 些 内 容 的 机 制 。DTD 为 包含 非 XML 数 据 的 实体 指定 一 个 名 称 和 URI。 


<!IENTITY movie SYSTEM "/home/linux/test.avi" NDATA avi> 


由 于 数据 不 是 XML 格 式 ， 所 以 使 用 NDATA 声 明 指 定数 据 类 型 。avi 是 在 NOTATION 中 定义 
的 MIME 媒 体 类 型 。 在 XML 中 嵌入 未 析 实 体 很 复杂 且 不 规范 ， 尺 量 不 要 使 用 。 


e@ 参数 实体 可 定义 一 组 通用 的 实体 ， 在 文档 中 可 通过 该 参数 实体 来 引用 实体 。 参 数 实体 的 
定义 与 通用 实体 定义 类 似 ， 只 是 中 间 多 了 一 个 %， 引 用 时 也 是 用 % 代 码 &。 


<!ENTITY % person "name,address,postcode"> 
引用 方法 

%person; 

这 样 会 用 name,address,postcode 代 替 参 数 实体 %person 


e。 通常 DTD 都 比较 大 ，DocBook 的 DTD 长 达 11000 多 行 ， 如 果 把 它 存放 在 单一 文件 中 ， 管 理 
和 维护 起 来 都 非常 困难 。 我 们 可 以 使 用 外 部 DTD 子 集 ， 把 一 个 大 的 DTD 按 功能 分 成 不 同 
的 功能 块 ， 存 放 在 不 同 的 文件 中 。 再 通过 外 部 参数 实体 声明 引入 当前 DTD 中 ， 如 : 


定义 参数 实体 引用 外 部 names. dtd 

<!IENTITY % names SYSTEM "names.dtd"> 
调用 外 部 DTD 子 集 

%names; 


使 用 IGNORE 关 键 字 可 注释 声明 ， 如 : 


<![IGNOREI[ 
<!ELEMENT note (#PCDATA)> 


赂 = 


当然 了 ， 使 用 <!-- 注释 --> 的 方式 也 是 一 样 的 。 


INCLUDE 关 键 字 表示 DTD 中 的 确 在 使 用 给 定 的 声明 ， 如 : 


<![INCLUDET 
<!ELEMENT note (#PCDATA)> 


阳 守 


单 从 该 声明 来 看 ， 有 没有 使 用 INCLUDE 效 果 都 一 样 ， 但 如 果 组 合 INCLUDE 和 IGNORE ， 
可 实现 DTD 功 能 的 选择 。 我 们 可 定义 一 个 参数 实体 : 


<!IENTITY % note allowed "INCLUDE" > 


然后 使 用 参数 实体 引用 而 不 使 用 关键 字 : 


<![%note_allowed;[ 
<!IELEMENT note (#PCDATA)> 


I 


按 上 述 操作 ， 元 素 声明 是 有 效 的 ， 但 我 们 也 可 以 把 参数 实体 %note _allowed 重 新 定义 为 
IGNORE， 这 样 ， 该 元 素 声明 就 无 效 了 。 


Chapter 4. XML 名 称 空间 


。 XML 名 称 空间 表示 XML 名 称 的 使 用 范围 ， 因 为 XML 可 自 定 义 元 素 标 签 ， 所 以 有 不 同 XML 
应 用 间 XML 名 称 重 名 的 机 会 是 很 大 的 。 如 果 没 有 一 种 方法 来 区 分 不 应 用 的 名 称 ， 就 会 造 
成 混乱 。XML 名 称 空间 就 是 为 了 解决 这 个 问题 而 设计 的 。 通 过 XML 名 称 空间 ， 我 们 可 以 
区 分 来 自 不 同 的 XML 应 用 的 具有 相同 名 称 的 元 素 和 属性 。 可 以 将 来 自 单 一 XML 应 用 的 相 
关 元 素 和 属性 集合 在 一 起 ， 方 便 软 件 识 别 和 处 理 。 


。 名 称 空间 由 前 级 和 本 地 部 分 组 成 ， 中 间 用 冒号 分 隔 。 前 组 标识 元 素 或 属性 的 所 在 名 称 空 


闻 ， 本 地 部 分 标识 名 称 空间 中 的 某 个 元 素 或 属性 。 整 个 名 称 也 称 为 限定 名 称 (qualified 

name)。 前 级 可 以 用 除 XML( 大 小 写 任意 组 合 ) 三 个 字母 外 的 任何 合法 的 XML 名 称 字符 组 
成 。 每 个 限定 名 称 中 的 前 组 都 必须 与 唯一 的 一 个 URI 关 联 。 带 有 相同 URI 关 联 的 前 缓 的 名 
称 属于 同一 名 称 空间 。 


<rdf:RDF xmlns:rdf="http://www.w3.org/TR/REC-rdf-syntax#"> 
<rdf:Description about="http://www.example.com/test.xml"> 
<title>example</title> 
<author>linuxsir</author> 


</rdf:Description> 
</rdf:RDF> 


上 例 rdf:RDF 元 素 的 xmlns:rdf 属 性 将 前 级 rdf 绑 定 到 名 称 空间 http://www.w3.org/TR/REC- 
rdf-syntax# 。 属 性 xmlns:rdf 为 rdf:RDF 元 素 及 其 子 元 素 声 明了 前 级 rdf。RDF 处 理 器 将 把 
rdf:RDF 和 rdf:Description 作 为 RDF 元 素 ， 因 为 两 个 元 素 都 具有 与 RDF 规 范 定义 的 某 个 URI 
相 绑 定 的 前 缓 。 处 理 器 不 会 认为 title，author 等 元 素 为 RDF 元 素 ， 因 为 它 没 有 绑 定 到 相同 
URI 的 rdf 前 组 。 


前 级 一 般 在 使 用 该 前 级 的 最 上 层 元 素 中 定义 。 在 下 层 元 素 中 也 可 定义 不 同 的 前 级 : 


<rdf:RDF xmlns:rdf="http://www.w3.org/TR/REC-rdf-syntax#"> 
<rdf:Description xmlns:dc="http://www.w3.org/dc/" 
about="http://www.example.com/test.xml"> 
<dc:title>example</dc:title> 
<dc:author>linuxsir</dc:author> 


</rdf:Description> 
</rdf:RDF> 


不 带 前 级 的 属性 ， 如 about， 不 属于 任何 的 名 称 空间 。 如 xlink:type 和 xlink:href 属 性 属于 
xlink 名 称 空间 ， 当 然 ， 前 提 是 你 要 先 把 xlink 绑 定 到 一 个 URI。URI 不 必须 是 一 定 存在 的 
http 链 接 ， 它 只 是 一 种 表示 的 方法 ， 以 区 分 不 同 的 名 称 空间 。 


通过 将 无 前 绥 的 xmlns 属 性 附加 到 根 元 素 中 ， 可 以 指定 不 带 前 组 的 元 素 及 所 有 不 带 前 组 的 
子 元 素 属 于 某 个 名 称 空间 。 


<svg xmlns="http://www.w3.org/2000/svg"> 
<ellipse rx="110" ry="130" /> 
<rect x="4cm" y="1icm" /> 

</svg> 


这 里 ， 虽 然 所 有 元 素 都 没有 前 级 ， 但 它 都 同属 一 个 名 称 空 间 。 但 属性 属 不 同名 称 空 间 ， 
因为 默认 名 称 空间 只 应 用 于 元 素 。 默 认 名 称 空间 在 子 元 素 中 也 用 相同 的 方法 重新 设置 。 


如 果 名 称 空间 只 用 来 识别 来 自 某 种 XML 应 用 的 元 素 和 属性 ， 而 不 是 用 来 区 分 具有 相同 名 
称 的 不 同 元 素 ， 则 可 在 DTD 的 元 素 中 定义 一 个 国定 的 xmlns 属 性 ， 而 不 需要 文档 中 定义 。 
定义 方法 如 下 : 


<!ATTLIST svg xmlns CDATA #FIXED "http://www.w3.org/svg/"> 


e 在 定义 DTD 时 ， 需 要 使 用 名 称 空间 前 缓 的 在 定义 时 也 要 把 前 缓 写 到 DTD 定 义 里 ， 如 : 


<!ELEMENT xlink:name (#PCDATA)> 


e 使 用 参数 实体 引用 来 定义 名 称 空间 前 级 可 方便 DTD 文 档 的 维护 ， 如 : 


<!ENTITY % prefix "xlink"> 
<!IENTITY % colon ":"> 


接着 ， 利 用 该 参数 实体 名 称 定义 更 多 的 参数 实体 引用 ， 如 : 


<!ENTITY % xlink-title "%prefix;%colon;title"> 
<!ENTITY % xlink-author "%prefix;%colon;author"> 


这 样 ， 如 果 需 更 改 前 级 ， 只 需 修 改 一 个 地 方 就 可 以 了 ， 不 用 整 篇 文档 修改 。 


<!ELEMENT %xlink-title; (#PCDATA)> 
<!ELEMENT %xlink-author; (#PCDATA)> 


不 能 在 ATTLIST 和 ELEMENT 声 明 中 直接 使 用 %prefix; 和 %colon ; ， 因 为 在 另 一 个 实 
体 的 外 部 使 用 这 些 参 数 实体 时 ，XML 解 析 器 会 在 实体 替换 文本 的 两 边 添 加 额外 的 空 
格 。 


Chapter 5. XHTML 


XHTML 是 W3C 推 荐 的 一 种 标准 ， 它 定义 了 一 种 与 XML 兼容 的 HTML 版 本 。XHTML 文 档 是 一 个 
有 效 的 XML 文档 ， 所 以 编写 格式 比 HTML 严 格 。 如 果 需 从 HTML 文 档 转 换 成 XHTML 文档 ， 需 作 
以 下 更 改 : 


。 在 XHTML 中 不 允许 省 略 结束 标签 ， 所 以 需 补 齐 缺 少 的 标签 。 
。 元 素 需 按 正确 的 顺序 瞪 套 。 

e 所 有 元 素 和 属性 的 名 称 都 采用 小 写 。 

e 属性 值 需 添加 引号 ， 如 <p align="center">。 

e 所 有 属性 都 需 有 属性 值 。 

。 采用 & 和 < 等 的 实体 形式 表示 这 些 字符 。 


e。 确保 文档 有 单一 根 元 素 ， 最 好 用 html 。 


像 <hr> 这 样 的 空 元 素 要 改 成 <hr/> 或 <hr><hr/>。 


注释 应 由 <! 注释 > 的 形式 改 成 <!-- 注释 -->。 


文档 编码 应 采用 UTF-8 或 UTF-16， 或 者 添加 XML 声明 指定 文档 的 编码 方式 。 


需 去 掉 非 标准 的 元 素 。 如 : marguee 。 


添加 一 个 DOCTYPE 声 明 ， 用 PUBLIC 来 指向 XHTML 的 三 种 DTD 中 的 一 种 。 分 别 是 
Strict、Transitional 和 Frameset， 一 般 使 用 Strict 。 


o Strict( 严 格 型 )，W3C 推 荐 的 XHTML 形式 。 不 包括 一 些 非 标 准 的 元 素 和 属性 ， 如 
applet 和 center 等 。 上 声明 方 式 如 下 : 


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1i-strict.dtd"> 


o Transitional( 过 渡 型 )， 一 种 不 太 严格 的 XHTML 格式 ， 可 使 用 一 些 非 标准 的 元 素 和 属 
性 ， 如 applet 和 bgcolor 等 。 声 明 方 式 如 下 : 


<!IDOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1i-transitional.dtd"> 


ES 


o Frameset( 框 架 型 )， 与 过 渡 型 DTD 类 似 ， 允 许 使 用 与 框架 相关 的 元 素 ， 如 frameset 和 
iframe。 上 声明 方式 如 下 : 


<!IDOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1i-frameset.dtd"> 


。 文档 的 根 元 素 必须 具有 xmins 属 性 ， 标 识 缺 省 的 名 称 空间 提 http://www.w3.org/1999/xhtml 


下 面 是 一 个 标准 的 XHTML 文档 的 示例 : 


<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> 

<html xmlns:"http://www.w3.org/1999/xhtml"> 

<head> 

<meta http-equiv="Content-type" content="text/html; charset=gb2312"> 

<title>xhtml example</title> 

</head> 

<body> 

</body> 

</html> 


由 HTML 转 到 XHTML 是 一 种 枯燥 而 乏味 的 工作 ， 现 在 有 一 种 叫 tidqy 的 开源 工具 可 帮 我 们 完成 大 
部 份 的 工作 ， 它 是 一 个 C 程 序 ， 使 用 方法 如 下 : 


% tidy --output-xhtml yes test.html test, Xml 


XHTML 1.1 把 XHTML 的 三 种 DTD 分 成 独立 模块 。 我 们 可 根据 实际 情况 包含 或 省 去 某 些 模块 。 
这 些 模块 是 : 


Structure Module( 结 构 模 块 )--->%xhtml-struct.module;， 包 含 HTML 文 档 主 要 的 元 素 ， 
如 : html、head 、title 和 body。 


Text Module( 文 本 模块 )--->%xhtml-text.module; ， 包 含 文本 的 基本 元 素 和 其 内 联 元 素 ， 
如 :h1、h2、...、strong、span 等 。 


Hypertext Module( 超 链接 模块 )--->%xhtml-hypertext.module;， 包 含 用 于 链接 的 元 素 ， 
如 :a 元 素 。 


List Module( 列 表 模 块 )--->%xhtml-list.module; ， 包 含 用 于 列表 的 元 素 ， 如 : dl、dt、dd、 
ul、ol 和 |i。 


Applet Module(applet 模 块 )--->%xhtml-applet.module;，Java 所 需要 元 素 ， 如 : applet 和 
param ° 


Presentation Module( 表 示 模 块 )--->%xhtml-pres.module;， 面 向 表示 的 标记 : b、big、 
hr、1、small、sub、sup 和 tt。 


Edit Module( 编 辑 模块 )--->%xhtml-edit.module;， 用 于 修正 的 元 素 ， 如 : del 和 ins。 


Bidirectional Text Module( 文 本 方向 模块 )--->%xhtml-bdo.module;， 用 于 指定 文本 阅读 的 
方向 ， 如 bdo 元 素 。 


Basic Forms Module( 基 本 表单 模块 )--->%xhtml-basic-form.module;， 用 于 HTML 3.2 的 表 
单元 素 ， 如 : form 、input、select、option 和 textarea 。 


Forms Module( 表 单 模块 )--->%xhtml-form.module;， 用 于 HTML 4.0 的 表单 元 素 ， 如 : 
form 、 input 、 select 、option 、textarea 、button 、fieldset 、label、legend 和 optgroup。 


Basic Tables Module( 基 本 表格 模块 )--->%xhtml-basic-table.module;， 基 本 的 表格 元 素 ， 
如 :table、caption、th、tr 和 td 。 


Table Module( 表 格 模块 )--->%xhtml-table.module;， 安 全 功能 的 表格 支持 ， 如 : table、 
caption ~、 th 、tr、td、 col、 colgroup 、 tbody 、 thead 和 tfoot。 


Image Module( 图 像 模 块 )--->%xhtml-image.module; ， 包 含 img 元 素 。 


Client-side Image Map Module( 客 户 端 图 像 映 像 模 块 )--->%xhtml-csismap.module;， 包 含 
map 和 area 元 素 以 及 支持 客户 端 图 像 映像 所 需要 的 元 素 的 属性 。 


Server-side-lImage Map Module( 服 务 器 端 图 像 映 像 模 块 )--->%xhtml-ssismap.module;，; 
该 模块 没有 添加 新 元 素 ， 但 对 img 元 素 添加 了 一 个 ismap 属 性 。 


。 Object Module( 对 象 模块 )--->%xhtml-object.module;， 用 于 在 网 页 中 页 入 可 执行 内 容 ， 
如 :java 程序 。 


。 Param Module( 参 数 模 块 )--->%xhtml-param.module;， 网 页 中 可 执行 内 容 中 传递 参数 的 
param 元 素 。 


。 Frames Module( 框 架 模 块 )--->%xhtml-frames.module;， 包 含 实现 框架 所 需 的 元 素 ， 如 : 
frame 、 frameset 和 noframes ° 


。 lframe Module( 内 联 框架 模块 )--->%xhtml-iframe.module;， 和 包含 内 联 框 架 的 iframe 元 素 。 


。 Intrinsic Events( 固 有 事件 模块 )--->%xhtml-events.module;， 支 持 如 onSubmit 和 onFocus 
等 脚本 的 属性 。 

。 Meta-information Module( 元 信息 模块 )--->%xhtml-meta.module; ， 包 含 meta 元 素 。 

。 Scripting Module( 脚 本 模块 )--->%xhtml-script.module;， 支 持 JavaScript 等 脚本 。 

。 Stylesheet Module( 样 式 表 模 块 )--->%xhtml-style.module;， 用 于 定义 CSS 的 Style 元素 。 


。 Link Module( 链 接 模块 )--->%xhtml-link.module;， 指 定 外 部 文件 ， 如 样式 表 、 库 等 关系 的 
link 元 素 。 


。 Base Modue( 基 模块 )--->%xhtml-base.module;， 包 含 base 元 素 ， 指 定 解析 相对 URL 所 参 
照 的 基 URL 。 


。 Target Module( 目 标 模块 )--->%xhtml-target.module;， 用 于 指定 目标 框架 或 框架 中 某 个 窗 
口 的 target 属 性 。 


。 Style Attribute Module( 样 式 属性 模块 )--->%xhtml-inlstyle.module;， 将 CSS 样 式 应 用 于 文 
档 中 单个 元 素 的 style 属 性。 


。 Name Identification Module( 名 称 标识 模块 )--->%xhtml-nameident.modulej，name 属 性 
是 id 属性 的 早期 版 本 ， 现 在 不 推荐 使 用 。 


。 Legacy Module( 传 统 模块 )--->%xhtml-legacy.module;， 不 推荐 使 用 的 元 素 和 属性 ， 如 : 
basefont、center、fonts、strike 和 U 元 素 。 


。 Ruby Module(Ruby 模 块 )--->%xhtml-ruby.module;， 东 亚 文 本 中 用 于 将 少量 文本 放 于 正文 
文本 淮 边 的 ruby、rbc、rtc、rb、rt 和 rp 元 素 ， 一 般 用 来 指示 发 音 。 


Chapter 6. 样式 表 


样式 表 可 帮 有 我 们 解释 XML 文档 中 各 元 素 的 具体 意思 ， 所 以 通过 样式 表 可 直接 在 浏览 器 上 显示 
XML 文档 。 目 前 主要 的 样式 表 语 言 有 : 


。 CSS1(Cascading Stylesheets Level 1， 层 一式 样式 表 人 1) 


。 CSS2(Cascading Stylesheets Level 2， 层 一 式样 式 表 2) 
。 XSLT(XSL Transformations 1.0 XSL 转换 1.0) 


在 XML 文档 在 序言 部 分 通过 Xml-stylesheet 处 理 指令 可 指定 关联 的 样式 表 。xml-stylesheet 指 令 
必须 有 一 个 href 属 性 和 type 属 性 。href 指 向 样式 表 的 URL，type 指 定 样式 表 的 MIME 类 型 : 对 
CSS 为 text/css， 对 于 XSLT 为 text/xml 或 application/xml。 下 面 是 一 个 简单 的 使 用 样式 表 的 
XML 文档 : 


< xml version="1.0" > 
< xml-stylesheet href="test.css" type="text/css" > 


除 以 上 两 个 必须 的 属性 外 ， 还 有 4 种 可 选 属性 : 


。 media， 标 识 该 样式 应 用 于 什么 媒体 ， 如 报纸 (paper)、 计 算 机 监视 器 (screen)、 电 视 (tv) 
或 所 有 (all)。 

。 charset， 指 明 样 式 表 采用 字符 集 编 码 方 式 ， 如 : Utf-8。 

。 alternate， 指 明 是 否 有 可 选 的 样式 表 ， 默 认为 NO， 表明 是 主 样式 表 ， 如 果 为 yes， 则 是 备 
用 样式 表 。 

。 title， 在 有 alternate 的 前 提 下 ，title 用 于 指定 不 同样 式 表 的 标题 。 如 : 


< xml-stylesheet href="big.css" type="text/css" alternate="yes" title="Large fonts" :> 
< xml-stylesheet href="small.css" type="text/css" alternate="yes" title="Small] fonts' 
< xml-stylesheet href="medium.css type="text/css" title="Normal fonts" > # 默 认 饼 


国王 于 于 一 一 = 





样式 表现 在 已 成 为 Web 应 用 中 的 一 个 关键 技术 ， 它 的 作用 主要 体现 在 以 下 三 个 方面 : 


e 设计 一 个 样式 表 可 以 应 用 于 多 个 文档 。 样 式 表 可 以 存在 于 XML 文 档 外 ，XML 文 档 可 通过 
链接 使 用 样式 表 。 这 意味 着 如 果 你 有 几 千 个 文档 ， 都 可 以 链接 到 同一 个 样式 表 中 ， 改 变 
一 个 样式 表 等 于 改变 几 千 个 文档 的 显示 效果 。 

e@ 实现 内 容 和 表现 的 分 离 ， 增 强 文档 的 一 致 性 和 可 维护 性 。 通 过 单一 的 样式 表 ， 实 现 所 有 
文档 显示 的 一 致 。 如 果 显 示 样 式 有 变动 ， 我 们 只 需 维护 有 限 的 几 个 样式 表 就 可 以 了 。 


。 实现 一 个 文档 ， 多 个 样式 。 通 过 样式 表 ， 可 把 一 篇 文档 以 HTML 形 式 、PDF 形 式 或 文本 形 


6.1. CSS2 


CSS2 是 层 党 样式 表 ， 它 是 一 种 排版 技术 ， 能 让 元 素 按 特定 的 样式 显示 ， 如 字体 大 小 ， 颜 色 、 
布局 等 。 在 网 页 中 有 三 种 使 用 方法 : 


e 用 <style> 标 记 声 明 ， 如 


<style> 

div {font-size: 12pt,;} 
div {color: blue;} 
</style> 


。 在 元 素 中 用 style 属 性 指定 ， 


<div style="font-size: 12pt;color: blue">CSS 测 试 </div> 


。 用 LINK 标 记 链 接 一 个 外 部 CSS 文 件 ， 如 : 


<link rel="stylesheet" type="text/css" href="mycss.css"> 


按 作 用 域 来 分 ， 有 三 类 的 样式 表 ， 分 别 是 网 页 解释 器 样式 表 、 作 者 样式 表 和 浏览 者 样式 表 。 
网 pe ， 当 没有 另外 的 样式 表 加 载 时 使 用 。 作 者 样式 表 就 是 网 
页 设计 师 设计 的 样式 表 。 浏 览 者 样式 表 是 浏览 网 页 的 用 户 在 浏览 器 上 另外 设置 的 样式 表 。 


CSS 的 基本 数据 类 型 
。 integer， 表 示 整 数 ， 可 取 正 负 值 。 如 : 12，-24。 
。 number， 表 示 数 字 ， 可 取 正 负 值 和 小 数 。 如 : 12.1，-14.3。 


。 lenght， 表 示 距 离 长 度 ， 可 取 正 负 值 和 小 数 ， 后 跟 一 个 单位 ， 如 :12em，12cm。 单 位 又 
分 相对 单位 和 绝对 单位 ， 相 对 单位 有 : em，ex，px。 绝 对 单位 有 : in( 英 寸 )，cm( 公 
分 )，mm( 公 厘 )，pt( 等 于 1/72 英 寸 )，pc( 等 于 12pt) 。 


e percentage， 表 示 百 分 比值 ， 可 取 正 负 和 人 小数。 如 : 20%，-40%。 
e uri， 表 示 网 络 资源 。 如 : http://www.ringkee.com 。 


inherit 参 数值 


<style> 

body {width: 600px;} 

.div1i {width: 120%;} 

.div2 {width: inherit;} 

说 明 : 

div1i1 的 宽度 是 600px*120% 

div2 的 宽度 继承 父 元 素 body 的 参数 ， 是 699px 


选择 符 的 作用 是 指 cr i a sd eo tA 先 择 符 两 
类 ， 简 单 选 择 符 是 类 型 选择 符 、 通 用 选择 符 加 上 零 个 或 多 个 属性 选择 符 、ID 选 择 符 、 伪 类 等 
组 成 。 复 合 选择 符 是 用 ">" 和 "+" 号 结合 多 个 简单 选择 符 组 成 。">" 和 "+" 号 两 边 要 加 上 空格 。 下 
面 介绍 各 种 选择 符 : 


。 通用 选择 符 ， 用 "号 表示 ， 可 用 于 所 有 标记 。 如 : 


<style> 

* {font-size: 14pt;} 

*.EM {color: red;} 

</style> 

<div> 应 用 字体 样式 </div> 

<em class="EM"> 应 用 红色 样式 </em> 


e 类 型 选择 符 ， 与 标记 名 一 样 ， 只 作用 已 该 标记 上 。 如 : 


<style> 

div {font-size: 14pt;} 
</style> 

<div> 应 用 样式 </div> 


e。 子 代 选择 符 ，HTML 标 记 是 可 骨 套 的 ， 子 代 选 择 符 可 把 样式 表 应 用 于 子 肯 套 的 子 标记 上 ， 
如 : 


<style> 

div p b {font-size: 14pt;} 
</style> 

<div> 

<p> 没 有 应 用 样式 </p> 

<p><b> 应 用 样式 </b></p> 
</div> 


。 子 选 择 符 ， 与 子 代 选择 符 类 似 ， 但 它 只 调用 第 一 层 子 元 素 。 如 : 


<style> 

div > b {color: red;} 

div p > em {color: green;} 

</style> 

<div><b> 当 b 标 记 是 div 标 记 的 子 标记 时 应 用 红色 样式 </b></div> 

<div><p><em> 当 em 是 p 的 子 标记 且 p 是 div 的 子 标记 时 应 用 绿色 样式 </em></p></div> 


。 邻近 选择 符 ， 当 两 个 元 素 位 于 同一 层 且 在 位 置 是 前 后 关系 时 ， 可 以 使 用 邻近 选择 符 。 两 
个 选择 符 用 "+" 号 分 开 ， 如 果 A 位 于 B 之 前 ， 则 B 可 应 用 样式 "如 : 
<style> 
div + p {color: red;} 
</style> 


<div> 没 有 应 用 样式 </div> 
<p> 应 用 红色 样式 。</p> 


e。 属性 选择 符 ，HTML 标 记 有 属性 ， 我 们 可 为 特定 的 属性 指定 样式 。 有 四 种 写法 ， 分 别 是 
o [属性 ] ， 样式 只 应 用 于 指定 的 属性 。 
o [属性 = 值 ] ， 样式 只 应 用 于 指定 的 属性 与 值 都 相同 的 情况 


。 类 选 


o [属性 ~= 值 ]， 样 式 只 应 用 于 指定 的 属性 且 属性 值 包含 指定 值 的 情 ; 


分 隔 的 字符 囊 。 


o。 [属性 |= 值 ]， 样 式 只 应 用 于 指定 的 属性 且 属性 值 是 的 第 一 个 字符 串 是 指定 值 的 情况 ， 


属性 值 是 用 "-" 分 隔 的 字符 串 。 


<style> 
[href] {color: red;} 
A[href="http://www.ringkee.com"] {color: green;} 
table[summary~="table"] {color: black;} 
table[summary|="this-is-a-table"] {color: blue;} 
</style> 
<a href="http://www.python.org"> 应 用 红色 样式 </a> 
<a href="http://www.ringkee.com"> 应 用 绿色 样式 </a> 
<table summary~="This is a table> 

<tr> 

<td> 应 用 黑色 样式 </td> 

</tr> 
</table> 
<table summary|="This-is-a-table> 

<tr> 

<td> 应 用 蓝 色 样式 </td> 

</tr> 
</table> 


先 择 符 ， 与 属性 选择 符 类 似 ， 但 它 只 指 对 class 属 性 应 用 样式 。 类 选择 符 用 "." 语 法 ， 
en 。 


<style> 

.myid {color: red;} 

</style> 

<div class="myid"> 应 用 红色 样式 </div> 


e。 ID 选择 符 ， 与 属性 选择 符 类 似 ， 但 它 只 指 对 ID 属性 ， 用 哮 " 语 法 。 


<style> 

#myid {color: red;} 

</style> 

<div id="myid"> 应 用 红色 样式 </div> 


:first-child 伪 类 ， 当 标记 是 另 一 个 标记 的 第 一 个 子 标 记 时 ， 应 用 样式 。 


<style> 

p:first-child {color: red;} 

</style> 

<p>p 是 body 的 第 一 个 子 标记 ， 应 用 红色 样式 </p> 
<div> 测 试 </div> 

<p>p 标 记 是 body 的 第 三 个 子 标记 ， 不 应 用 红色 样式 </p> 


:link 和 :visited 伪 类 只 作用 于 a 标记 ， 在 指定 href 属 性 的 前 提 下 ，:link 表 示 a 标 记 还 没 被 点 击 
时 的 样式 ，:visited 表 示 被 当 点 后 的 样式 。 


<style> 

a:link {color: blue;} 

a:visited {color: red;} 

</style> 

<a href="http://www.ringkee.com"> 链 接 没 点 击 前 是 蓝 色 的 ， 点 击 后 是 红色 的 </a> 


。 :hover，:active 和 :fouce 伪 类 也 只 能 作用 于 a 标记 ， 且 也 要 指定 href 属 性 。:hover 指 定 当 用 
户 把 和 鼠标 移 到 a 标 记 上 并 且 指 针 变 成 手 型 时 应 用 的 样式 。:active 指 定点 击 a 链 接 并 放 开 鼠 
标 时 所 显示 的 样式 。:fouce 指 定 用 户 点 击 a 标 记 瞬 间 ， 即 链接 成 为 焦点 时 所 显示 的 样 
式 。:hover 要 放 在 :|ink 和 :visited 之 后 ， 否 则 :hover 的 样式 会 覆盖 :link 和 :visited 的 样式 。 


<style> 

a:link {color: blue;} 
a:visited {color: red;} 
a:haover {color: green;} 
a:focus {color: black;} 
a:active {color: white;} 


</style> 
<a href="http://www.ringkee.com"> 应 用 样式 </a> 


e :left 及 :right 伪 类 只 作用 于 页 面 内 容 。 当 页 面 在 左边 时 应 用 :left 指 定 的 样式 ， 当 页 面 在 右边 
时 应 用 :right 指 定 的 样式 。 


。 :first-line 只 对 div 和 p 标 记 不 效 ， 样 式 只 应 用 于 这 两 个 标记 内 的 第 一 行内 容 。 


<style> 

:first-line {color: red;} 
</style> 

<div width:50px;> 

该 元 素 内 的 第 一 行内 容 应 用 红色 样式 。 
</div> 


。 :first-letter 伪 类 也 只 能 作用 于 div 和 p 标 记 ， 与 :first-line 不 同 的 是 它 只 作用 于 标记 内 的 第 一 
个 字符 。 如 果 我 们 想 要 每 一 行 的 开头 字符 大 一 点 就 可 使 用 该 伪 类 。 


<style> 

:first-letter {font-size: 40pt;} 
</style> 

<p> 这 行文 字 开 头 第 一 个 字符 的 大 小 是 49pt</p> 


e :before 和 :after 伪 类 可 在 内 容 的 前 面 或 后 面 增 加 特定 的 内 容 或 指定 样式 。 


<style> 

p:before {content: "("; color: red;} 
p:after {content: ")"; color: green;} 
</style> 

<p> 这 行文 字 前 后 会 增加 一 对 括号 ， 前 括号 为 红色 </p> 
<p> 这 行文 字 前 后 会 增加 一 对 括号 ， 后 括号 为 绿色 </p> 


。 层 权 选择 符 是 指 当 有 多 个 选择 符 的 样式 都 应 用 于 同一 个 标记 时 的 选择 规则 。 该 规则 利用 
一 个 三 位 数 来 确定 ， 数 字 最 大 的 就 可 选中 。 这 三 位 数 的 确定 规则 的 这 样 的 ， 如 果 选 择 符 
中 有 ID 选择 符 ， 则 百 位 数 加 1, 和 否则 为 0。 如 果 有 属性 选择 符 、 类 选择 符 或 伪 类 选择 符 ， 则 
十 位 数 加 1， 和 否则 为 0。 如 果 有 类 型 选择 符 ， 则 个 位 数 加 1， 和 否则 为 0。 如 果 选 择 符 是 #div 
div， 这 三 位 数 则 是 101。 让 我 们 分 析 一 下 ，#div 是 ID 选择 符 ， 所 以 在 百 位 数 上 加 1，div 是 
类 型 选择 符 ， 所 以 个 位 数 上 加 1 变 成 101。"*" 表 示 0， 优 先 级 最 低 。 


样式 表 的 主要 功能 是 指定 同一 个 文件 在 不 同 媒体 上 按 不 同 的 样式 显示 。 通 过 在 种 方式 可 指定 
不 同 媒体 


。 @media 方 式 


<style> 

@media screen {div{color:red;}} 
@media print {div{color:green;}} 
</style> 

<div> 不 同 媒体 显示 不 同 颜 色 </div> 


。 @import 是 另 一 种 指定 不 同 媒体 的 方式 ， 它 可 引入 外 部 的 Css 文档 。 它 的 语法 格式 是 : 


<style> 
@import url("simple.css") screen; 
</style> 


。 在 HTML4.0 中 ， 可 以 用 LINK 标 记 的 media 属 性 为 不 同 媒体 类 型 指定 样式 表 。 


<LINK rel="stylesheet" href="import.css" type="text/css" media="print"> 


limportant 规 则 会 改变 应 用 样式 的 优先 级 ， 有 limportant 参 数 样式 的 优先 级 最 高 ， 会 优先 显示 。 


<style> 

hi {color:red;} 

hi {color:green !important;} 
</style> 


<h1> 字 体 为 绿色 </h1> 


6.2. XSLT 


XSLT 是 XSL 的 一 部 份 ， 它 是 XML 的 一 种 应 用 ， 指 定 将 一 篇 XML 文档 转换 成 另 一 种 XML 文档 的 
规则 。XSLT 文 档 即 是 一 篇 XML 文 档 ， 也 是 一 个 样式 表 ， 里 面包 含 一 系列 的 模板 。XSLT 处 理 器 
对 输入 XML 文档 中 的 元 素 和 样式 表 中 的 模板 进行 比较 ， 如 果 匹 配 ， 则 将 该 模板 的 内 容 写 入 一 
个 输出 树 中 。 完 成 处 理 后 ， 将 输出 树 串 行 化 成 一 篇 XML 文档 或 其 它 格 式 的 文档 ， 如 HTML 或 者 
rtf 。 


XSLT 几 个 关键 术语 


e 源 树 ， 原 始 文档 中 的 元 素 和 元 素 内 容 的 树 。 

e 结果 树 ， 转 换 之 后 中 文档 中 的 元 素 和 元 素 内 容 的 树 。 

e 模板 规则 ，XSLT 样 式 表 的 基础 ， 分 为 模式 和 模板 两 部 份 。 整 个 xsl:template 元 素 。 

。 模式 ， 表 示 源 树 中 的 元 素 与 模式 规则 匹配 的 条 件 集合 。xsl:template 中 的 match 的 值 。 

e 模板 ， 表 示 当 应 用 模板 规则 时 ， 结 果树 中 要 实例 化 的 部 份 。xsl:template 元 素 中 的 内 容 。 
XSLT 定 义 了 35 个 元 素 ， 分 为 三 类 : 
两 个 根 元 素 


。 xsl:stylesheet 根 元 素 ，XSLT 也 是 一 个 XML 文 档 ， 该 文档 的 根 元 素 就 是 xsl:stylesheet 。 
XSLT 元 素 都 属于 名 称 空间 xmlins:xsl="http://www.w3.org/1999/XSL/Transform" ， 所 以 所 有 
的 XSLT 元 素 都 有 xsl 前 级 。 一 个 最 小 化 XSLT 文 档 : 


< xml version="1.0" > 
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.0org/1999/XsL/Transform"> 
</xsl:stylesheet> 


。 xsl:transform 元 素 ， 作 用 同上 。 
13 个 顶级 元 素 ， 可 直接 作为 根 元 素 的 子 元 素 ， 和 包括 : 

。 xsl:apply-imports 

。 xsl:attribute-set 

。 xsl:decimal-format 

® xsl:import 

® xsl:include 

e xsl:key 

。 xslinamespace-alias 

e xsl:output 

。 xsl:param 

e xsl:preserve-space 

e xsl:strip-space 


。 xsl:template 模 板 元 素 ， 用 于 匹配 XML 文档 中 的 元 素 。 如 : <xsl:template 
match="person">， 匹 配 XML 文 档 中 的 person 元 素 。 


。 xsl:variable 
20 个 指令 元 素 
。 xsl:apply-imports 


。 xsl:apply-template 应 用 模板 元 素 ， 用 于 显示 指定 的 元 素 值 (内 容 )。 如 : <xsl:apply- 
template select="name">， 显 示 name 元 素 的 值 。 


。 xsl:attribute 

。 xsl:call-template 
e xsl:choose 

e。 xslcomment 

e xsl:copy 

e xsl:copy-of 

。 xsl:element 

。 xsl:fallback 

。 xsl:for-each 

e xSsl:if 

。 xsl:message 

。 Xsl:number 

e xsl:otherwise 

® xsl:processing-instruction 
e xsl:text 


。 Xsl:value-of 选 择 元 素 ， 用 于 计算 元 素 的 值 (内 容 )。 如 : <xsl:value-of select="name">， 获 
得 XML 文 档 中 name 元 素 的 值 (内 容 )。 


e xsl:variable 
e xsl:when 


XSLT 函 数 


6.3. XPath 


XPath 是 一 种 用 来 从 文档 树 中 选择 节点 和 节点 集 的 语言 。 从 XPath 的 角度 来 看 ， 共 有 七 种 节 
点 和 


。 根 节点 

e 元 素 节点 

。 属性 节点 

e 文本 节点 

。 注释 节点 

e 处 理 指令 节点 

。 名 称 空间 节点 
CDATA 部 份 ， 实 体 引 用 和 文档 类 型 声明 不 包括 在 内 ，XPath 在 所 有 这 些 项 都 并 入 文档 之 后 才 
起 作用 。 根 节点 和 根 元 素 是 不 同 的 两 个 概念 ， 根 节点 包含 整 篇 文档 ， 和 包括 根 元 素 。 


6.3.1. 匹配 模式 


匹配 模板 的 通用 模式 


Table 6.1. 
模式 描述 

match="E" 匹配 元 素 E 
match="™*" 匹配 任意 元 素 
match="E|F"” 匹配 元 素 E 和 F 
match="E/F" 匹配 以 E 为 父 元 素 的 元 素 F 
match="E//F" 匹配 以 E 为 根 元 素 的 元 素 F 
match="/" 匹配 根 节点 
match="text()" 匹配 文本 节点 
match="comment()" 匹配 注释 节点 
match="processing-instruction()" 匹配 处 理 指令 
match="node()" 匹配 除 属性 节点 和 根 节点 外 的 节点 
match="id(test)" 匹配 具有 唯一 ID test 的 元 素 
match="E[@CLASS='"foo"] 匹配 元 素 E， 其 类 属性 为 foo 


match="E[F]" 匹配 元 素 包含 有 F 元 素 的 E 元 素 


6.3.2. XPath 轴 


XPath 提供 了 选择 节点 的 机 制 ， 两 个 较 有 用 的 是 轴 选 择 和 谓语 选择 ， 轴 指定 上 下 文 节点 和 要 选 
择 的 节点 的 关系 。 共 有 十 三 种 轴 ， 最 常用 的 有 四 种 ， 分 别 是 子 轴 (child)、 届 性 轴 (attribute)、 
自己 (self)、 双 亲 (parent)。 


Table 6.2. XPath 轴 描述 








轴 描述 
child 包含 当前 节点 的 儿子 
包含 当前 节点 的 后 包含 属 ,性 世 
ER 2 当前 节点 的 后 代 ， 后 代 不 包含 属性 (attribute) 或 名 称 域 (namespace) 
parent 包含 当前 节点 的 父亲 
ancestor 包含 当前 节点 的 祖先 ， 祖 先 总 是 包含 根 节点 
oe 包含 当前 节点 随后 的 所 有 节点 树 ， 但 不 包含 attribute 或 namespace 节 点 
有 包含 当前 节点 之 前 的 所 有 节点 树 ， 但 不 包含 attribute 或 hamespace 节 点 
. 包含 当前 节点 随后 的 所 有 节点 ，following 轴 排除 了 当前 节点 的 后 代 和 
following | 、 长 
attribute 或 namespace 节 点 
包含 当前 节点 之 前 的 所 有 节点 ，following 轴 排除 了 当前 节点 的 后 代 和 
preceding 点 
attribute 或 namespace 节 ， 
attribute 包含 当前 节点 的 所 有 属性 
namespace 包含 当前 节点 的 所 有 namespace 节 点 
self 只 包含 当前 节点 
descendent- 包含 当前 节点 和 当前 节点 的 后 代 
or-self 
ancesiorOF 包含 当前 节点 和 当前 节点 的 祖先 





6.3.3. 谓词 
XPath 表 达 式 可 以 匹配 多 个 节点 ， 如 需 对 匹配 的 节点 进行 进一步 的 第 选 ， 可 以 使 用 谓词 。 


Table 6.3. 选择 节点 常用 谓词 


谓词 描述 


select="E" 选择 是 当前 节点 的 孩子 的 E 元 素 
select="" 选择 当前 节点 的 孩子 的 所 有 元 素 


信 
馈 


前 节点 的 文本 节点 孩子 


前 节点 的 name 属 性 


select="text()" 


售 
馈 
: 


select="@name" 


select="@?” 选择 当前 节点 的 所 有 属性 
select="E[1]" 选择 当前 节点 的 孩子 的 第 一 个 E 元 素 


信 
馈 
. 


select="E[last()]" $ 前 节点 的 孩子 的 最 后 一 个 EE 元 素 











select="*/E" 选择 当前 节点 的 孙 了 的 所 有 EE 元 素 

select="E//F" 选择 从 当前 节点 的 孩子 的 EE 元 素 派生 而 来 的 元 素 F 
select="//" 选择 根 元 素 

select="//E" 选择 从 根 节点 派生 而 来 的 E 元 素 

select="//E/F" 选择 所 有 是 从 根 节点 派生 而 来 的 E 元 素 的 孩子 的 F 元 素 
select="." 选择 当前 节点 

select=".//E" 选择 从 当前 节点 派生 而 来 的 所 有 E 元 素 

select=".." 选择 当前 节点 的 父 

select="../@name" 选择 当前 节点 的 父 节 点 的 name 属 性 


许 择 日 前 节点 好 交 其 | 具 右 季 
select="E[@name='foo']" fa 当 有 下 ， 9 孩子 并 且 name 属 性 有 foo 值 | 


9 除 等 号 外 9 还 可 用 < ;>， <=，» >= 和 |= 


select="E[@foo and 


@bary' 选择 所 有 包含 foo 和 bar 属 性 的 E 元 素 


的 写法 叫 简写 定位 路 径 ， 该 写法 简洁 ， 容 易 理解 ， 是 XSLT 匹 
配 模式 中 最 常用 的 写法 。 还 有 一 种 称 为 非 简写 定位 路 径 的 写法 ， 它 把 节点 测试 和 轴 结 合 在 一 
起 ， 如 child::home/child::person/attribute::id。 该 写法 在 实际 使 用 中 不 常用 ， 但 它 具 有 非常 重 
要 的 性 能 因此 有 必要 了 解 。 


6.3.4. XPath 表达 式 


CES 是 XPath 的 一 个 最 常用 的 表达 式 ， 用 以 标识 XML 文档 的 节点 集 。 除 此 之 上 ，XPath 表 
达 式 还 可 返回 数字 、 布 尔 和 字符 串 。 非 节点 集 的 XPath 表达 式 不 能 用 于 xsl:template 元 素 的 
match 属 性 中 。 它 们 用 于 xsl:value-of 元 素 的 select 属 性 值 或 用 于 位 置 路 径 的 谓词 中 。 


每 个 XPath 位 置 路 径 可 分 为 一 一 步 名 多 ， 每 步 以 “/" 号 分 小 隔 ， 如: 


room[\@name=$root]/date[year=$year and month=$month]/meeting 


上 下 文 节 点 即 当 前 正在 处 理 的 节点 ， 也 就 是 位 置 路 径 定位 的 当前 节点 。 上 下 文 在 XPath 表达 式 
计算 前 被 创建 ， 由 XSLT 处 理 器 创建 。 处 理 每 一 步 后 ， 上 下 文 都 会 改变 。 


位 置 路 径 中 的 步 可 分 为 三 部 份 : 轴 (axis)、 节 点 测试 (note test) 和 谓词 (predicate)， 它 的 写法 如 
下 


axis::note-test[predicate] 


轴 和 节点 测试 之 间 用 “2 分 开 ， 每 个 谓词 由 括号 【] 括 起 来 。 

要 设计 好 一 个 位 置 路 径 ， 需 确保 在 每 一 步 选择 最 少 的 节点 ， 使 用 最 严格 的 轴 ， 用 最 严格 的 节 
点 测试 。 避 免 使 用 谓词 ， 因 为 由 轴 和 节点 测试 选择 的 节点 集 的 每 个 节点 都 会 用 作 谓 词 的 上 下 
文 节 点 。 对 于 位 置 路 径 的 三 步 ， 最 节省 的 是 节点 测试 。 

XPath 中 的 所 有 数字 都 是 8 个 字 节 的 IEEE754 浮 点 双 精 度 类 型 ， 与 java 的 double 类 型 相同 。 可 
表示 正 无 穷 大 、 负 无 穷 大 和 NaN( 零 除 零 ) 值 。 支 持 五 种 运算 符 ， 分 别 是 加 (+)、 减 (-)、 乘 (*)、 
除 (div)、 取 余 (mod)。 

XPath 中 的 字符 串 是 Unicode 字 符 ， 用 单 引号 或 双 引 号 定 界 。 可 以 使 用 = 和 |= 对 字符 进行 比较 ， 
也 可 用 <，>，<=，> 关 系 运算 符 ， 但 比较 的 两 个 字符 必须 是 数字 ， 否 则 比较 结果 没有 意义 。 


XPath 中 的 布尔 值 常 用 于 位 置 路 径 的 谓词 中 ， 如 /person[name="debian"]。 布 尔 值 还 常用 于 
xsl:if 和 xsl:when 元 素 的 test 属 性 中 。 如 : 


<xsl:template match="home"> 


<xsl:if test = ".='debian' or .='redhat'"> 
<xsl:value-of select = "." /> 
</xsl:if> 


</xsl:template> 


6.3.5. XPath 台数 
XPath 还 提供 很 多 函数 ， 用 于 表达 式 和 谓词 。 XPath 也 数 的 返回 值 有 四 种 类 型 ， 分 别 是 : 
。 布尔 值 ， 如 : true() 返 回 ture( 站 )，false() 返 回 false( 假 )，not() 对 布尔 值 取 反 。 
。 数字 ， 如 : number() 把 任意 类 型 转化 数字 ，celing() 返 回 大 于 或 等 于 参数 的 最 小 整数 。 
e 节点 集 ， 如: position() 返 回 当 有 节点 在 上 下 节点 列表 中 的 位 置 ，count() 可 统计 节点 数 。 


。 字符 串 ， 如 : string() 转 化 任意 类 型 为 字符 串 ，string-length() 返 回 字符 串 长 度 。 


6.4. XLink 


XLink 有 是 一 种 基于 属性 的 语法 ， 用 来 在 XML 文档 中 添加 链接 。XLink 链 接 可 以 是 单 向 的 ， 如 
HTML 中 的 A 元 素 ， 它 也 可 以 是 双向 的 ， 在 两 个 方向 上 链接 两 篇 文档 ， 因 此 能 够 从 A 到 B 或 从 B 
到 A。 每 个 XLink 元 素 必 须 具 有 一 个 xlink:type 属 性 ， 指 出 连接 类 型 。 属 性 xlink:href 指 向 所 链接 
的 资源 URI。 下 面 是 一 个 简单 链接 的 示例 : 


<test xmlns:xlink = "http://www.w3.org/1999/xlink" 
xlink:type = "simple" 
xlink:href = "http://www.ringkee.com/xml.html"> 
<author>Jims</author> 
<date>2005/02/18</date> 
</test> 


xlink:type 属 性 类 型 共有 六 种 ， 分 别 是 : simple ，extended ， locator ，arc ， title，resource。 


xlink:show 属 性 可 告诉 浏览 器 或 应 用 程序 在 激活 链接 时 应 该 做 什么 ， 它 有 五 种 可 能 的 动作 ， 
别 是 : 


。 new， 在 新 窗口 中 显示 链接 内 容 。 
。 replace， 在 当前 窗口 显示 链接 内 容 。 
。 embed， 在 当前 链接 元 素 的 位 置 瞪 入 内 容 。 
e other， 动 作 不 确定 ， 由 应 用 程序 指定 。 
e none， 无 动作 。 
xlink:actuate 属 性 可 告诉 浏览 器 何 时 显示 链接 ， 它 有 四 种 可 能 值 
e OnLoad， 一 旦 发 现 链接 ， 马 上 显 
。 onRequest， 当 用 户 提 出 请 求 时 才 显 示 
e other， 由 文档 中 的 其 它 标记 ， 而 不 是 xlink， 来 决定 何 时 显示 。 
e none， 不 指定 。 


一 个 和 HTML 中 的 A 元 素 作用 一 样 的 示例 : 


<test xmlns:xlink = "http://www.w3.org/1999/xlink" 
xlink:type = "simple" 
xlink:href = "http://www.ringkee.com/xml.html" 
xlink:actuate = "onRequest" 
xlink:show = "replace" > 
<author>Jims</author> 
<date>2005/02/18</date> 
</test> 


一 个 在 页 面 谋 入 图 像 的 示例 : 


<image xlink:type = "simple" 
xlink:actuate = "onLoad" 
xlink:show = "embed" 
xlink:href="http://www.ringkee.com/flower .png" 
width = "320" height = "240" /> 


xlink:actuate 和 xlink:show 是 可 选 的 。 


xlink:title 和 xlink:role 属 性 可 指定 资源 之 间 的 描述 ，xlink:title 包 含 少 量 描述 远程 资源 的 文本 ， 
xlink:role 包 含 URI， 指 向 资源 的 较 长 描述 。 


Chapter 7. 分 析 XML 


分 析 XML 文 档 可 通过 程序 来 做 ， 分 析 器 有 两 大 类 ， 一 种 是 事件 驱动 的 ， 一 种 是 基于 树 模型 
的 。 


e 使 用 事件 驱动 的 分 析 器 时 ， 每 遇 到 一 个 元 素 就 会 触发 一 个 事件 ， 由 事件 处 理 器 进行 处 
理 。 事 件 分 析 器 按 顺序 读 取 XML 文 档 ， 而 不 把 整个 文档 读 入 内 存 ， 所 以 处 理 速 度 很 快 。 
但 缺点 是 由 于 要 从 头 到 尾 读 取 XML 文 档 ， 因 此 无 法 在 XML 文档 中 移动 位 置 。 事 件 驱动 分 
析 器 适合 处 理 其 它 地 方 使 用 的 XML 数据 ， 如 转换 成 HTML 文 档 或 从 文件 中 读 取 数据 并 插入 
数据 库 中 。 它 的 优点 有 : 


o 文件 搜索 ， 从 XML 文档 中 搜索 需要 的 标志 或 数据 ; 


o 格式 转换 ， 如 转换 成 HTML。 任 何 需 将 原始 XML 转换 成 另 一 种 格式 的 工作 都 最 好 使 用 
事件 驱动 分 析 器 来 完成 ， 因 为 它 可 动态 将 信息 转换 成 新 格式 。 


o 少量 修改 ， 你 可 用 事件 驱动 分 析 器 读 取 和 重新 生成 XML。 在 分 析 过 程 中 ， 可 以 改变 
少量 的 单 语 、 字 符 数 据 内 容 或 重新 构造 XML。 事 件 驱 动 分 析 器 特别 适合 整理 和 重新 
格式 化 XML 文档 。 


o 简单 验证 ， 由 于 整个 文档 不 在 内 存 中 ， 所 以 无 法 进行 完整 验证 ， 但 可 检查 拼写 错误 
和 一 般 良 构 XML 文档 之 类 的 简单 问题 ; 


o 建立 内 部 结构 ， 可 以 使 用 事件 驱动 分 析 器 建立 XML 文档 的 复杂 内 部 表示 ， 如 基于 树 
的 接口 使 用 的 树 式 结构 。 


事件 驱动 分 析 器 不 能 在 XML 文 档 间 交 又 引用 文档 内 容 ， 但 它 使 用 简单 ， 速 度 快 。 


。 基于 树 的 分 析 器 把 整个 XML 文 档 读 入 内 存 ， 并 生成 树 状 结构 。 分 析 器 可 随机 访问 树 中 的 
任意 节点 ， 并 能 修改 树 结构 和 内 容 。 


7.1. 分 析 器 工具 


现 有 的 分 析 器 种 类 有 上 百 种 ， 但 常用 的 是 两 个 标准 的 工具 库 ， 一 个 是 XML 简单 API(SAX ， 
Simple API for XML) 和 文档 对 象 模 型 (DOC，Document Object Model)。SAX 是 事件 驱动 分 析 
器 的 标准 ， 而 DOM 是 基于 树 的 分 析 器 标准 。 另 外 ，Expat 虽 然 不 是 标准 ， 但 它 是 脚本 语言 中 处 
理 XML 时 最 常用 的 分 析 器 。Expat 由 James Clark 编 写 ， 是 事件 驱动 分 析 器 。 


7.2. Unicode 


计算 机 并 不 能 正 申 理 解 文本 内 容 ， 它 无 法 识别 诸如 a,b,c 这 类 的 字母 ， 更 不 用 说 中 文 了 。 计 算 
机 所 能 理解 的 只 有 数字 ， 如 60，80 等 。 字 符 集 (character set) 规 定 了 字母 到 数字 的 映射 关系 ， 
如 65 代 表 大 写字 母 A。65 称 为 码 点 (code point)， 字 符 编码 (character encoding) 决 定 码 点 如 何 
用 字 节 表示 。 是 用 多 了 节 还 是 单字 节 ， 高 字 节 位 表示 什么 ， 低 字 节 位 表示 什么 。 


不 同 国家 使 用 不 同 的 语言 ， 不 同 程序 使 用 不 同 的 编码 规范 ， 在 进行 世界 范围 内 的 数据 交换 就 
要 统一 表示 数据 的 字符 编码 规范 。 传 统 的 ASCII 字 符 集 只 定义 了 127 个 字符 ， 其 中 前 31 个 是 控 
制 符 。127 位 之 后 的 字符 随 平台 不 同 而 不 同 。 大 多 数 平台 只 能 表示 前 127 位 ， 单 字 节 (8 位 )， 使 
得 字符 集中 最 多 只 能 提供 256 个 字符 。 这 些 标准 字符 称 为 罗马 或 拉丁 字符 集 ， 用 ASCII 来 表示 
中 文 、 日 文 是 远 远 不 够 的 。 


为 了 解决 字符 集 问题 ， 出 现 了 Unicode 字 符 集 。 它 可 用 多 字 节 格式 编码 字符 ， 目 前 标准 允许 2 
字 节 字符 ， 支 持 65536 个 不 同 字符 。 标 准 的 Unicode 字 符 集 为 Latin-1( 或 ISO-8859-1)。 有 关 
Unicode 的 介绍 可 访问 Unicode 的 官方 网 站 : http://www.unicode.org。 


Unicode 字 符 集 为 字符 分 配 码 点 ， 即 编号 。 这 些 编号 可 以 用 多 种 模式 编码 ， 如 UCS-2、UCS- 
4、UTF-8、UTF-16 。 


e。 UCS-2， 也 叫 ISO-10646-UCS-2。 每 个 字符 用 一 个 0~65535 之 间 的 两 个 字 节 的 无 符号 整 
数 表 示 。 如 A 的 Unicode 码 点 为 65， 用 两 个 字 节 00 和 41( 十 六 进 制 ) 表 示 。B 的 Unicode 码 点 
为 66， 用 两 个 字 节 00 和 42 表 示 。UCS-2 有 两 种 形式 : 高 字 节 (#xX0041) 在 前 和 低 字 节 
(#Xx4100) 在 前 。 为 区 发 高 低位 不 同 表 示 形 式 ， 采 用 UCS-2 编 码 文档 通常 以 Unicode 字 符 
#XxFEFF( 零 宽度 无 间断 空格 ) 开 头 ， 一 般 称 为 字 节 顺序 标记 (byte order mark)。 这 个 字符 是 
不 可 见 的 。 如 果 两 个 字 节 交换 位 置 ， 得 到 的 字符 #XxFFFE 实 际 是 不 存在 的 。 因 此 中 通过 查 
看 UCS-2 文 档 的 前 两 个 字符 是 #XxFEFF 还 是 #XFFFE， 就 可 确定 该 文档 是 否 是 高 字 节 在 

前 。UCS-2 的 缺点 : 如 果 文 本 字符 主要 是 拉丁 文 ， 由 于 采用 两 个 字 节 ， 字 符 集 编码 是 单 

字 节 字符 编码 的 两 倍 ; UCS-2 不 能 与 ASCII 向 前 或 向 后 兼容 ， 用 于 单字 节 字 符 集 的 工具 常 

常 不 适用 于 处 理 UCS-2 编 码 文 件 。 


e。 UTF-8 是 一 种 可 这 长 度 的 Unicode 编 码 。0~127 为 ASCII 码 字符 集 ， 与 ASCII 编 码 完 全 兼 
容 ， 每 个 字符 采用 一 个 字 节 编码 。UTF-8 用 两 个 字 节 表 示 128~2047， 该 范围 覆盖 了 最 党 
见 的 非 表意 字母 。 其 余 的 字符 ， 主 要 来 自 汉语 、 日 语 和 韩语 ， 每 个 都 用 3 个 字 节 表示 。 如 
果 Unicode 的 码 点 超过 65535 个 字符 ， 那 么 这 些 字符 就 会 用 4 个 字 节 编码 。 对 于 以 拉丁 文 


为 主 的 文件 ， 使 用 UTF-8 比 UCS-2 可 减少 一 半 的 文件 大 小 。 对 于 汉语 、 日 语 和 韩语 的 文 
件 ， 其 大 小 会 增加 百 分 之 五 十 。 对 于 其 它 语言 ， 文 件 大 小 相差 不 大 。UTF-8 是 最 常用 的 
Unicode 编 码 方式 。 


在 Unicode 流 行 以 前 ， 出 现 了 一 系列 处 理 特定 语言 的 单字 节 字 符 集 ，|ISO 将 14 种 这 样 的 字符 集 
标准 化 成 ISO 8859 标 准 ， 分 别 是 |SO-8859-1~14。1ISO-8859-15 是 |SO-8859-1 的 修订 版 本 。 
这 些 字符 集 统称 |ISO 字 符 集 。 


Cp1252 是 依赖 于 Windows 平 台 的 一 种 编码 ， 是 Windows 的 缺 省 字符 集 。 该 种 编码 不 支持 跨 平 
台 特 性 ， 尽 量 不 要 使 用 。 


MacRoman 是 Mac OS 使 用 的 一 种 非 标 准 、 单 字 节 编码 。 在 非 Mac 平 台 下 使 用 也 会 有 问题 ， 尽 
量 不 要 使 用 。 


在 XML 文档 中 ， 如 果 需 输入 编辑 器 不 支持 的 字符 ， 我 们 可 用 字符 引用 的 方式 ， 以 十 进 制 或 十 
六 进 制 给 出 它 所 代表 的 Unicode 字 符 编号 ， 如 册 ( 十 进 制 ) 或 者 &#xX45A( 十 六 进 制 )。 字 符 引 用 可 
于 元 素 内 容 、 属 性 和 注释 ， 不 能 用 于 元 素 名 和 属性 名 、 处 理 指令 或 XML 关键 字 。 如 果 有 一 
上 字符 需 经 常 使 用 ， 则 我 们 可 为 这 些 字符 定义 实体 ， 这 样 ， 在 文档 中 就 可 方便 地 引用 该 实体 

门 定义 字符 实体 的 DTD 我 们 可 独立 出 来 ， 形 成 以 .ent 为 后 组 的 外 部 DTD。 在 需要 时 使 用 
实 


外 部 参数 实体 引用 将 这 些 定义 引入 文档 的 DTD 中 。 


XHTML 1.0 DTD 包 含有 三 个 有 用 的 字符 引用 实体 可 在 文档 中 使 用 。 
。 Latin-1 字 符 ，http://www.w3.org/TR/xhtml1/DTD/xhtml-lat1.ent 
ISO-8859-1 中 自 160 以 上 的 非 ASCII 码 字符 。 
。 特殊 字符 ，http://www.w3.org/TR/xhtml/DTD/xhtml-special.ent 
ISO-8859-2 中 不 在 Latin-1 中 的 字母 。 


e 标点 符号 ，http://www.w3.org/TR/xhtml-symbol.ent 


希腊 字母 表 (不 包含 带 重音 的 字符 ) 和 各 种 标点 符号 、 数 学 运算 符 及 其 他 数学 中 常用 的 符 


号 


本 O 
在 XML 文档 中 可 以 使 用 xml:lang 属 性 规定 元 素 内 容 采 用 的 语言 。 这 样 就 可 在 一 篇 文档 中 同时 使 
用 多 种 语言 ， 这 是 XML 跨 平 台 和 跨 语言 的 重要 特性 之 一 。 如 : Xml:lang="CN-CHN'"。 语 言 代 
码 是 一 个 两 个 字母 的 语言 代码 ， 语 言 代 码 后 还 可 跟 一 个 子 代 码 ， 语 言 代 码 可 在 这 里 找 
到 http://ftp.ics.uci.edu/pub/ietf/http/related/iso3166.txt。 下 面 是 xml:lang 属 性 声明 的 示例 : 


<!ELEMENT test (#PCDATA)> 
<!ATTLIST test xml:lang NMTOKEN #IMPLIED> 


由 于 所 有 语言 代码 都 是 有 效 的 XML 名 称 标 记 ， 所 以 使 用 NMTOKEN 类 型 。 


Appendix A. 附录 


A.1. 标记 语言 的 历史 


1974 年 ，IBM 的 Charles F.Goldfarb、Ed Mosher 和 Ray Lorie 发 明了 一 种 最 终 发 展 成 为 标 
准 的 通用 标记 语言 (SGML ，Standardized General Markup Language)。1986 年 ，SGML 
被 ISO 采用 为 8879 号 标准 。 


1991 年 ，Tim Berners-Lee 利 用 SGML 提 供 的 基本 机 制定 义 了 超 文 本 标记 语言 (HTML， 
Hypertext Markup Language)， 把 Internet 带 进 了 一 个 多 炊 多 彩 的 世界 。HTML 是 SGML 服 
成 功 的 一 种 应 用 。 


1998 年 2 月 10 日 ，W3C 的 XML 1.0 标 准 正 式 发 布 ， 为 异 构 平台 的 数据 交换 提供 了 一 个 可 行 
的 标准 。 


A.2. XML 相关 技术 名 词 解释 


XLink， 一 种 基于 属性 的 用 于 XML 和 非 XML 文 档 之 问 超 链接 的 语法 ， 可 以 提供 与 HTML 相 
似 的 简单 、 单 向 的 链接 ， 多 文档 之 间 的 多 向 链接 ， 以 及 没有 写 入 权限 的 文档 间 的 链接 。 


XSLT(XSL Transformation,XSL 转 换 )， 一 种 XML 文档 ， 用 于 描述 具有 相同 或 不 同 XML 词 
汇 表 的 两 个 文档 之 间 的 转换 。 


XSL-FO(XSL Formatting Object,XSL 格 式 化 对 象 )， 一 种 用 于 描述 打印 和 网 页 布局 的 XML 


Dsssl(Document Style Sheet and Semantics Language, 文 档 样 式 表 和 语义 语言 )， 用 于 
描述 XML 打印 和 在 Web 上 的 样式 ， 源 自 SGML。 


XPointer， 标 识 XML 文档 中 由 URI 指 定 的 特殊 部 分 ， 通 常 与 XLink 结 合 使 用 。 
XPath， 用 于 标识 XML 文档 中 的 路 径 。 

Namespace， 区 分 来 自 不 同 的 XML 语汇 表 但 名 称 相 同 的 元 素 和 属性 的 一 种 方式 。 
SAX，Simple APIfor XML， 一 种 事件 驱动 的 XML 文档 处 理 器 。 


DOM，Document Object Model， 一 种 面向 树 的 API， 它 把 XML 文档 解释 成 具有 多 属性 和 
说 套 的 对 象 树 。 


A.3. XML 应 用 


XML 可 自 定 义 标签 ， 为 了 增强 互 操 作 ， 个 人 或 组 织 可 约定 只 使 用 某 种 标签 。 这 些 标签 集 被 称 
为 XML 应 用 。XML 应 用 不 是 使 用 XML 的 软件 应 用 程序 ， 如 IE 或 Word， 而 是 XML 在 矢量 图 形 或 
数学 公式 这 些 特殊 领域 的 一 种 应 用 。 


SVG， 可 缩放 矢量 图 形 (Scalable Vector Graphic)， 是 W3C 推 荐 的 XML 中 矢量 图 的 编码 标 
准 。 


MathML ， 数 学 标记 语言 (Mathematical Markup Language)， 用 于 表示 数据 公式 。 


CML ， 化 学 标记 语言 (Chemical Markup Language)， 描 述 化 学 、 物 理学 、 分 子 生物 学 和 
其 它 分子 科 学 。 
RDF， 资 源 描述 框架 (Resource Description Framework)， 用 于 描述 资源 ， 特 别 是 图 书馆 


分 类 卡 上 的 元 数据 。 


CDF， 通 道 定义 格式 (Channel Definition Format)， 微 软 公司 定义 的 一 种 非 标准 XML 应 
用 ， 用 来 向 IE 发 布 可 离线 浏览 的 网 页 。 


